在业界瞩目的最新全球权威TTS(文本转语音)评测榜单中,中国公司阶跃星辰(StepFun)展现出了强劲实力。其语音生成模型StepAudio2.5TTS,凭借出色的听感体验,一举杀入全球前三,成为截至目前该榜单上排名最高的中国大模型产品。
不同于传统实验室的数据指标,这一榜单采用了更为严苛的“盲测Elo评分机制”。在该模式下,用户需要在不知道模型身份的前提下,对同一段文本生成的两段音频,基于主观听感进行评价。测试场景覆盖了在线客服、知识分享、数字助手以及娱乐互动等真实生活场景。阶跃星辰的胜出,意味着其生成的语音在真实用户反馈中更“有人味儿”,在语气自然度和表现力上,已经达到了国际一流水准的竞争力。
当前,阶跃星辰已完整释出StepAudio2.5系列的全链路模型,包括负责语音生成的TTS、用于高精度识别的ASR,以及新近登场的Realtime实时交互模型。其中,Realtime模型尤为注重打造“类人感”,通过顶级的副语言能力和可自定义的角色设定,为用户塑造有温度、有灵魂的AI对话伙伴。
事实上,该公司在语音AI领域的布局早已展开。其开源的基座推理模型Step Audio R1.1,已在另一项全球语音推理权威榜单上连续四个月霸榜;而另一款开源的情感风格编辑模型Step Audio EditX,仅需3秒钟素材即可完成高质量的语音克隆,展现了极高的技术效率。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。