Rain科技3月19日消息,今日,小米发布了Xiaomi MiMo-V2-TTS,这是小米自主研发的语音合成大模型,其能力不仅限于基本的语音播报,更能够进行富有表现力的“演播”甚至“歌唱”。
该模型的核心技术基于小米自研的Audio Tokenizer以及一种创新的多码本语音-文本联合建模架构。通过对海量的语音数据进行大规模预训练,并辅以多维度的强化学习,MiMo-V2-TTS在实现高度可控的多粒度语音风格控制方面取得了显著突破。
这种先进的控制能力使得模型能够精细调节语音的整体风格,甚至细化到局部的情感表达。在实际应用中,它可以在同一句话内自然地完成语气的转折和情感的递进,从而真实地还原人类说话时的自然韵律。在歌唱场景下,它同样能够精准把握音高和节奏,传递出自然且富有感染力的歌声。
为了进一步释放模型在大规模预训练过程中积累的高表现力语音生成潜力,小米引入了多维度强化学习机制。这一机制的引入,在确保语音合成稳定性的同时,也极大地增强了其表现力。
模型在预训练阶段,通过学习大量文本与语音的对应数据,建立了书面语和口语表达之间的映射关系。这意味着它能够智能地识别文本中存在的各种格式信号,例如标点符号、语气词以及强调标记等,并能将这些信号自动转化为恰当、自然的语音表达。这一过程无需用户进行额外的标注或手动干预,大幅提升了使用的便捷性和效率。
MiMo-V2-TTS的另一项重要能力是支持多种方言的自然发音,包括但不限于东北话、四川话、河南话、粤语以及台湾腔等。这为个性化和地域化的语音应用提供了广阔的空间。此外,模型还能够进行角色扮演式的风格化演绎,并实现高质量的歌声合成,满足多样化的内容创作需求。
小米方面表示,MiMo-V2-TTS的发布是其语音技术发展路线图中的一个重要里程碑,但其技术探索并未止步于此。
在小米未来的规划中,除了进一步扩展对更多语种的支持(中英文之外),还将致力于与MiMo-V2-Omni多模态理解能力进行深度融合。这种融合将使得小米的智能Agent不仅能够“看懂”并“理解”世界,更能以富有表现力的人类声音去生动地讲述这个世界,从而带来更具沉浸感和交互性的用户体验。
