全球AI模型速度纪录被打破！智谱发布GLM-5.1高速版

国内大模型赛道今天迎来一颗重磅炸弹——智谱AI正式面向精选企业客户开放GLM-5.1 Highspeed API。这款内部代号“GLM-5.1-highspeed”的模型，凭借400 tokens/s的输出速度，直接把行业API速度天花板捅了个对穿。要知道，在此之前，业界默认“速度”和“能力”是跷跷板两端，想要快就必须牺牲模型大小和效果。但这次，智谱用实际行动宣告：这个旧规则，该翻篇了。

打破“快即弱”的行业魔咒

GLM-5.1高速版最狠的地方，就是第一次在国产大模型里把旗舰级的技术能力和极低延迟同时塞进生产环境。传统认知里，高速推理往往意味着模型蒸馏或剪枝带来的能力损失，但这款模型用400 TPS的数据证明——系统级优化完全可以做到“又快又强”。据透露，此次突破由智谱GLM团队与TileRT技术团队联合攻关，从推理引擎、调度系统到底层基础设施三个层面进行了深度重写，彻底摒弃了传统的动态调度方案。

三层优化，把400 TPS变成稳定产能

具体来看，开发团队先从模型架构的推理瓶颈处下手，重写了核心推理路径，让单卡吞吐直接拉满；同时在并发场景下通过动态批处理等技巧进一步压降延迟。更重要的是，围绕基础设施的协同优化，确保400 TPS不再只是实验室里的纸面数据，而是稳定可用的生产级能力。这套组合拳下来，无论是AI编程、实时语音交互，还是高频业务决策，都能在智谱MaaS平台上获得肉眼可见的响应提升。

如果你关注过这两年大模型API的价格战和性能竞赛，就会明白400 tokens/s意味着什么——它几乎等于把原来需要等待数百毫秒的对话响应压缩到了“瞬发”级别。更难得的是，智谱没有选择“牺牲精度换速度”的老路，而是走通了系统协同优化的硬核路线。不过也要看到，目前该API仅面向精选企业开放，大规模商业化落地是否还能维持同样水准，以及高速模式下模型在高复杂度推理任务上的表现是否会有波动，仍需要更多实测来验证。但至少，GLM-5.1 Highspeed已经给行业立了一个新的标杆：大模型的速度竞赛，终于从“拼参数”转向了“拼系统工程”。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

全球AI模型速度纪录被打破！智谱发布GLM-5.1高速版

相关推荐

发表回复