智谱 AI 开放平台上线 GLM-4-Long,支持 1M 上下文

年初,当大模型行业掀起“长文本”竞赛热潮时,我们就萌生过打造一个“读书助理”的想法。对市面上主流大模型进行测试后,我们发现普遍存在两个不足:

一种是可处理的文本长度不够,即使有些大模型将文本长度提升至20万字,但对于《红楼梦》这类近百万字的名著,仍需要多次才能“读”完。

另一种是语言理解和生成能力不足,经常出现“幻觉”。“长文本”的特点不仅仅在于篇幅长,还涉及复杂的逻辑和语义,需要更连贯、相关的响应。

直到前两天,一位从事 AIGC 的朋友向我们分享了一个新消息:“智谱 AI 开放平台默默上线了为处理超长文本和记忆型任务设计的 GLM-4-Long,支持 1M 上下文。” 100万上下文长度意味着什么呢?我们找来了另外两个大模型,使用 120 回版本的《红楼梦》(约有 73 万个汉字)进行了简单对比:

月之暗面 128K 的大模型,每次可处理 6.4 万个汉字,需要 12 次才能读完;Claude 200K 的大模型,每次可处理 10 万个汉字,需要 8 次才能读完;而 GLM-4-Long 实测可以处理 150-200 万字,一次就能读完一本《红楼梦》。

然而,文本长度仅仅是个入门能力,要真正扮演“读书助理”的角色,必须确保能够从大量文本中准确检索信息,尤其是在一些关键信息被隐藏在文档深处的情况下,同时还需要具备出色的推理和内容生成能力。

因此,我们对 GLM-4-Long 进行了深度测试。

智谱 AI 开放平台上线了 GLM-4-Long,支持 1M 上下文

01 两分钟“熟读”钱穆先生的《国史大纲》

大约五年前,我们购入了钱穆先生的《国史大纲》,商务印书馆的繁体竖排版。由于这本书采用大学教科书的体例写作,学术味浓厚,再加上钱穆先生精炼的文笔风格,至今我们都没有完整读完。

GLM-4-Long 能否胜任“书童”的角色呢?

我们调用了 GLM-4-Long 的 API 接口,读取了 50 多万字的电子版《国史大纲》,然后针对性地提出了三个问题:

第一个问题:请总结这篇文档中每个部分的主要内容。

原书目录中只列举了每个章节的标题,我们希望通过这个问题验证大模型是否处理了文档的全部信息,以及对内容的理解和总结生成能力。

从输出结果来看,GLM-4-Long 不仅准确整理出了每个章节的核心内容,还按照现在比较主流的纪年方式,将全书内容拆分为上古文化、春秋战国、秦汉、魏晋南北朝、隋唐五代、两宋、元明、清代等 8 个部分。内容准确率超过 99%,仅在“两宋之部”的小标题上被列举了两次(可以通过模型微调进行优化)。

第二个问题:“秦汉国力与对外形势” 在文档哪个部分?

这是一个迷惑性较强的问题,因为第七章和第八章都讲述了相关背景,但钱穆先生在第十一章中进行了重点介绍。

智谱 AI 开放平台上线了 GLM-4-Long,支持 1M 上下文

GLM-4-Long 并未落入预设的“陷阱”,准确指出了问题所在的章节和标题。这也是长文本处理的一个典型痛点,在长达几十万字的内容中,作者可能在多个地方描述相似的事情,这最考验大模型的语义理解和内容检索能力。它并非对文本进行机械处理,而是需要更强的抽象和内容归纳能力。

第三个问题:北宋的建国和汉唐时期有什么不同?

搜索引擎上没有直接相关的答案,但钱穆先生在书中给出了系统阐述,用于验证 GLM-4-Long 是否能够理解书中的细节信息。

智谱 AI 开放平台上线了 GLM-4-Long,支持 1M 上下文

这次的答案再次让我们感到惊艳,GLM-4-Long 从建国方式、统治方式、对外政策、经济、文化、社会、政治制度等角度,全面概括了钱穆先生的观点。特别是在“对外政策”方面,它准确回答了“汉唐时期积极对外扩张,北宋采取保守的防御策略”,并简要提及了政策变化背后的原因,即五代十国时期战争频繁,导致国力消耗严重。

相关的测试问题不再一一赘述,直接给出我们的结论:GLM-4-Long 对文档全局信息的处理、长文本理解和生成、多轮对话等能力均超出预期。整个体验有一种与钱穆先生跨时空对话的“错觉”。

另一个不容忽视的信息是, GLM-4-Long 只用了大约两分钟的时间来处理一本 50 多万字的书籍。如果你想要使用大模型来处理一些没有时间研读的长文本,GLM-4-Long 在某种程度上可以说是最佳帮手。

02 用多个文档训练出一位“知识博主”

很多人在日常工作和生活中接触的文档,并非动辄近百万字的巨著,而是几万字、最多十几万字的文档和资料。在这种比较大众化的需求下,像 GLM-4-Long 这样 1M 长文本能力的大模型,有何特殊价值呢?

前面我们用《红楼梦》进行了对比,其实还可以用另一种方式来对比:

月之暗面 128K 的大模型,每次可处理 6.4 万个汉字,相当于阅读 1 本《活着》;Claude 200K 的大模型,每次可处理 10 万个汉字,相当于一次阅读《活着》和《在细雨中呐喊》两本书;而 GLM-4-Long 的 1M 上下文,则可以一次阅读余华老师的多本书,比如《活着》、《在细雨中呐喊》、《河边的错误》、《第七天》……

由此,我们萌生了一个想法:是否可以让大模型一次性阅读多本相关的专业书籍,快速训练出一个专业的知识博主?

首先想到的一个场景就是饮食,生活中我们经常遇到诸如吃什么可以减肥、6 月龄宝宝能不能吃蛋黄、高血压病人的饮食需要注意什么等问题,每次都需要搜索或询问 AI,又担心内容是否准确。

我们让 GLM-4-Long 一次性读取了《中国居民膳食指南》、《中国食物成分表》、《中国饮食文化》、《中国居民膳食营养素参考摄入量》等多个文档,然后使用日常生活中的常见问题进行了针对性提问:

8 月龄儿童日常饮食应该注意什么?

智谱 AI 开放平台上线了 GLM-4-Long,支持 1M 上下文

可以看到,GLM-4-Long 输出的答案非常全面,除了要补充蛋白质、维生素和矿物质,它还给出了一些贴心的建议:食物应该细腻易消化,避免大块或硬的食物,以防噎食;建议先引入蔬菜泥,然后是水果泥,接着是强化铁的米粉或米糊;如果家族中有过敏史,应避免引入可能导致过敏的食物……

50 岁的高血压病人有什么饮食建议?

智谱 AI 开放平台上线了 GLM-4-Long,支持 1M 上下文

答案仍然比较全面,包括应将食盐摄入量控制在每天 6 克以下、每天摄入 300-500 克新鲜蔬菜和 200-350 克新鲜水果、每日摄入 25-30 克膳食纤维、避免过多摄入精制糖和白面食、建议通过食物摄入足够的钾和钙、避免过多摄入蛋白质、限制饮酒等等,并提供了具体的食物建议。

以上只是我们简单尝试的一个场景,可以联想到的应用场景还有很多。

例如,一次性通读余华老师的所有小说,然后“变身”余华老师进行对话;一次性阅读多篇相关的论文,帮助提升论文阅读的效率;一次性读取上百份简历,然后根据需求筛选出最合适的候选人;以及找到一家企业多个季度的财报进行横向对比,从更宏大、信息更丰富的视角进行财报分析……

我们列举的“想法”仅仅是抛砖引玉,相信智谱 AI 在大模型能力上打破天花板后,会有越来越多开发者参与其中,挖掘藏在应用层的机会,带来各种有趣、有生产力的体验。

03 “卷” 长文本过渡到“卷”综合能力

有别于年初单纯卷文本长度的比拼,智谱 AI 在 GLM-4-Long 的宣传和营销上不可谓不低调,但却折射出了大模型市场的一个隐性共识:不再为了传播某个能力硬凹需求,而是开始卷大模型的综合能力。

背后的原因并不难解释。

长文本本质上是一种智力能力。假如我们将大模型比作一台“电脑”,那么“更长的上下文”可以看作是更大的内存,能够提高多任务处理能力、提升运行大型软件的流畅度、带来更好的游戏体验等等。内存的大小,可能在某种程度上影响消费者的购买决策,但并非优先级最高的购买因素。

同样的道理,仅仅是在文本长度上领先,并不足以让大模型吸引所有的注意力,也不会是一条稳定的护城河。

与之相对应的是,大模型的“长文本热”就像昙花一现,开发者们没有趋之若鹜,资本市场不断传来批判的声音:“感觉是各家公司在为抢入头部阵营做成绩,本质上还是为了秀肌肉,衡量长文本的价值,要等到更明确的落地场景和对应的商业模式出现,否则市场再热闹也是没有用的。”

半年时间过去,GLM-4-Long 让外界看到了大模型新的演变方向:除了记住多长的上下文,还在比拼语言理解和生成能力、长文本推理和 QA 能力,不再是做长木桶的一块板,而是要把所有木板做长。

比起我们“浅尝辄止”的测试,对大模型行业新方向感到兴奋的,恰恰是那群做 AIGC 的创业者。正如那位朋友所说的:“大模型可以满足 100 万字的上下文,并且可以很好地、准确地执行复杂指令,预示着巨大的想象空间。希望智谱 AI 开放平台可以早日推出 GLM-4-Long 的正式版,我们已经有了多个智能体相关的想法。”

自从 ChatGPT 走红后,整个大模型行业风谲云诡。然而一个看起来有些畸形的现象是:资本大多将钱投给了大模型企业,做应用创新的创业者鲜有机会,尽管不少人都在呼吁创业者应该卷应用,而非卷模型。

回过头来看这样的现象,需要批判的不是资本的“势力”,而是开发者们的无奈。直接的例子就是长文本,半年前的火爆只是技术上的,由于存在能力上的短板,未能在应用层延续热度和爆点。借用上面的比喻,一台电脑的内存很大,但 CPU、GPU、屏幕等依然是短板,开发者很难做出体验优秀的应用。

当大模型的竞争走向综合能力的较量,100 万长文本赋予了开发者更大的创造空间,同时在生成、推理、QA 等能力上不再被制约,注定会吸引越来越多的开发者参与进来,进一步将想象力转化为生产力,创造出一个又一个“出圈”的现象级应用,加速大模型在应用赛道上的繁荣。

04 结语

“2024 年是 AGI 落地元年”。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2024年 8月 19日 上午11:50
下一篇 2024年 8月 19日 下午12:11

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!