视觉大模型遇挫：首个中文古文字OCR评估基准开源

说实话，这年头AI要是只会读屏幕上的现代代码，那可真有点说不过去。现在顶级的AI模型，得能看懂三千年前的甲骨文才行——这不是比喻，是真事。

根据OSCHINA，腾讯混元大模型、SSV数字文化实验室等机构，联合多家高校和故宫博物院，搞出了一个叫“Chronicles-OCR”的数据集。这是业界首个全面覆盖“汉字七体”演变轨迹的古文字识别行业基准。别小看这个“七体”——从甲骨、金文、篆书，到隶、楷、行、草，跨度整整三千年。过去大家做OCR主要盯着印刷体、手写体，但古文字因为字形残缺、笔画变形、载体多样，一直是视觉模型认知的硬骨头。

为了真实反映大模型的识别能力，这个数据集可不是随便抓一堆图片就完事。它由领域专家做了多层交叉标注，最终得到2800张高质量图片，且严格做到了类别平衡。对于甲骨文、金文、篆书这类古文字，团队用了细粒度的字符级标注；而对于隶、楷、行、草这些相对成熟的字体，则采用了保留原始阅读顺序的序列级转录。这种分层标注策略，正好暴露了当前多模态大模型在“视觉感知”与“语义推理”之间的脱节问题——模型认不出字符，也就谈不上理解文意。值得注意的是，2800张图规模虽不大，但以古文字研究领域的标注成本而言，这已经是相当密集的“标定弹药”。

主流视觉大模型，全部翻车

项目组基于这个基准设计了四个递进的核心任务，严格解耦了大模型的“视觉感知”和“语义推理”能力。他们评测了包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型，结果让人意外——甚至可以说有点“尴尬”。

面对没有现代排版先验知识的古文字，主流大模型在端到端检测任务中全军覆没，细粒度识别的最高准确率竟然只有27.1%。更反直觉的是，实验发现：开启大模型的推理模式，反而放大了感知的不确定性，导致识别性能进一步下降。这意味着什么？意味着模型越“努力思考”，越是把不认识的笔画当成了“合理猜测”的对象，从而跑偏得更远。这也从侧面验证了一个观点：当前的推理增强策略对于纯视觉感知任务，可能不仅无效，反而有害。

暴露微观笔触识别的短板

评估中还发现一个有意思的现象：在进行字体分类时，现有的视觉大模型更倾向于识别载体纹理——也就是竹简、龟甲、石碑的材质纹理，而不是去区分微观的笔触风格。换句话说，今天最顶尖的AI模型，离真正“读懂”中国传统古文字还差得远。它不是在“识字”，而是在“识纸”。这种“以表代里”的浅层感知，对于需要捕捉笔画起承转合、刀刻力度、墨迹渗化等细腻特征的古文字识别而言，是致命短板。

汉字从殷墟甲骨走到今天，一笔一画都是文明的延续。Chronicles-OCR的开源并没有回避这个技术现实。它通过可见的差距，为未来视觉大模型从“认字”到“读史”的进阶，提供了清晰的优化方向。对于整个NLP与CV交叉领域来说，这也是一个信号：古文字识别不再是“冷门赛道”，它正在成为衡量多模态模型真实理解力的试金石。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

视觉大模型遇挫：首个中文古文字OCR评估基准开源

相关推荐

发表回复