阶跃最新语音模型登顶Artificial Analysis中国榜首

5 月 9 日，全球权威 TTS 评测榜单 Artificial Analysis Speech Arena Leaderboard 更新，阶跃语音生成模型 StepAudio 2.5 TTS 跻身全球前三，成为当前榜单排名最高的中国大模型。这一成绩并非来自传统指标堆砌，而是通过盲测 Elo 评分机制——用户在不知模型身份的前提下，直接对比同一文本生成的两段语音，并基于听感做出判断。测试覆盖客服、知识分享、数字助手、娱乐等场景，意味着 StepAudio 2.5 TTS 的领先直接映射到了真实用户体验中。相比 OpenAI、Google 等巨头在语音领域的持续投入，国产模型能在这种“人听为主”的评测里突围，说明技术路线和工程落地已经迈过关键门槛。

据了解，阶跃近期集中发布 StepAudio 2.5 系列模型，包括 TTS、ASR 和 Realtime 三款，覆盖语音生成、识别与实时交互全链路。其中 StepAudio 2.5 TTS 主打高自然度语音生成，StepAudio 2.5 ASR 面向高速高精度识别，而昨日上线的 StepAudio 2.5 Realtime 则强调“活人感”的 AI 聊天体验，具备顶级副语言能力、千万人设自定义、领先情商品格——这其实指向一个关键差异：传统语音模型只能“读稿”，而阶跃在尝试让 AI 说话更有温度和态度。

AI 语音模型被普遍视为人机交互核心入口，OpenAI、Google 等长期高强度投入。记者观察到，阶跃在语音领域已有深度布局：开源原生推理语音模型 Step Audio R1.1 连续 4 个月霸榜 Artificial Analysis Speech Reasoning，目前仍全球第一；开源全球首个迭代式情绪风格语音编辑模型 Step Audio EditX，作为 zero-shot TTS，仅用 3 秒复刻的音色效果就能胜过不少闭源模型；目前该模型在 Artificial Analysis Speech Arena Leaderboard 开源榜位列全球第二。一个值得注意的趋势是：当大多数团队还在比拼模型参数量和训练算力时，阶跃选择在“用户听感”这个更偏主观的维度上建立优势，这种差异化策略在商业化场景中会更具转化潜力。

在商业化方面，阶跃语音模型已在多个核心终端场景落地。例如搭载吉利银河 M9，率先实现端到端语音大模型量产上车；为整车智能体超级 Eva 提供语音交互能力，首发搭载极氪 8X 并实现量产上市。这两个案例说明，阶跃的语音能力已经从实验室走到前装量产车机，这对后续与更多车企、智能硬件厂商合作具有示范意义。整体来看，语音赛道正从“能说话”向“会聊天”进化，用户对自然度和情感表达的容忍度低，而阶跃的排名和落地进度，给行业提供了一种可参考的技术路径。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

阶跃最新语音模型登顶Artificial Analysis中国榜首

相关推荐

发表回复