数字风洞大模型竞技场：面对基础逻辑陷阱的表现

最近，网络上掀起了一股关于“13.11% 和 13.8% 哪个大”的热议，引发了网友的广泛关注。一些媒体也针对这一问题向多个知名问答大模型发起了提问，结果却发现，这些大模型大多无法给出正确答案。随后，有报道称“一道小学生难度的数学题竟然难倒了一众海内外 AI 大模型”。

对于大模型在识别数字小数部分时出现的混淆问题，业内早已关注。究其原因，并非大模型在数学计算方面遇到了困难，而是由于“分词器”的错误拆解和大模型技术架构本身的局限性，导致其在理解题目时陷入了误区。除了数学类问题外，在识别复杂字母图形、梳理复杂语句等场景下，也存在类似的逻辑推理能力缺陷问题。为了深入探究这一现象，永信至诚智能永信团队在他们的 AI 大模型安全测评“数字风洞”平台的大模型竞技场中，对这一问题进行了详细的原理分析。

永信至诚大模型竞技场

相关负责人介绍，在处理数字问题时，由于神经网络特殊的注意力算法，AI 大模型会倾向于通过比较小数点后数值的大小来生成答案，因此会导致错误结论。事实上，只要将所有数字格式统一，将小数点后写至百分位，分词器就能正确识别，进而帮助大模型进行准确的推理判断。

大模型分词器原理

基于这一技术原理，该团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360 智脑等 17 个大模型产品进行了同场横向对比测评。他们通过基础逻辑陷阱类问题，对各个大模型的表现进行了评估。测评结果显示，除了基础设施安全、内容安全、数据与应用安全等领域外，大模型底层架构中还存在一些如“分词器”这样容易被忽视的设计单元。这些设计单元的错误输出会影响到大模型整体的可靠性和安全性。这也说明大模型的发展需要伴随着持续的检测和改进。

据介绍，“数字风洞”平台已经将“大模型竞技场”功能面向体验用户开放，为大模型开发团队提供横向对比测评功能，帮助开发者快速检测不同大模型在数学计算、请求代码文档等场景下的回答，以便在选择使用开源基座模型进行开发 AI 应用、Agent 或进行训练改进时，更直观对比不同大模型的异常反馈情况，便捷地开展大模型产品选型工作。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

数字风洞大模型竞技场：面对基础逻辑陷阱的表现

相关推荐

发表回复