当然，这就为您以「AI快讯网」的风格重写这篇文章：

DeepSeek 破局长文本：OCR 加持，大模型上下文难题迎刃而解？

2024.03.08

在生成式AI飞速发展的当下，大模型的能力边界正不断被刷新。然而，一个长期困扰业界的瓶颈——“有限的上下文窗口”——至今仍是限制模型处理海量信息、理解复杂依赖关系的“阿喀琉斯之踵”。试想一下，当我们需要模型深度分析一部长篇巨著，或者理解千万行代码的逻辑时，当前主流模型往往力不从心，不得不通过分割、采样等方式“分而治之”，这不仅牺牲了信息完备性，也大大增加了推理的复杂度。

近日，国内AI公司 DeepSeek 发布了自家新一代大模型，其核心亮点——引入OCR（光学字符识别）技术，试图借此大幅度拓宽模型的上下文理解能力，这无疑为长文本处理这一“老大难”问题带来了新的解法思路，也让我们看到了大模型走向更广阔应用场景的曙光。

OCR，不止于“看”，更是“懂”

你可能对OCR的印象还停留在将扫描文档转化为可编辑文本的阶段。然而，在DeepSeek的设想中，OCR被赋予了全新的使命：它不再仅仅是信息的“搬运工”，而是成为连接“视觉”与“理解”的桥梁。

传统的LLM（大语言模型）在处理富文本，尤其是包含大量图文混合信息的文档时，往往表现出局限性。即使是支持长上下文的模型，其“理解”能力也主要基于文本序列的 Embedding。这意味着，如果信息以非文本（如图片中的文字）形式存在，或者文本的排版、布局本身携带着重要的语义信息，模型都可能“视而不见”。

DeepSeek的创新之处在于，他们将OCR技术与其大模型深度结合。简单来说，当模型接收到一张图片或者一个包含图像的文档时，OCR引擎会首先“识别”出图片中的文字，将其转化为模型可以理解的文本序列。这使得模型能够“看到”并“读懂”那些原本隐藏在图像中的信息。

更进一步，DeepSeek似乎并未止步于此。据了解，他们正探索利用OCR技术对文档的版面信息、图形元素进行分析，从而构建更丰富的语义表示。例如，识别表格的结构、图表的关联、以及文字的相对位置和段落划分，这些信息本身就承载着重要的上下文含义。通过这种方式，模型能够获得比纯文本更全面、更深入的信息，从而极大地增强了其对复杂文档的理解能力。

突破上下文瓶颈，长文本处理迎来新机遇

长文本处理一直是AI领域的“硬骨头”。无论是法律合同的审查、学术论文的摘要生成、金融报告的深度分析，还是大型代码库的理解，都需要模型具备处理海量信息并抓住核心要点的能力。

当前，主流的大模型往往通过Transformer的注意力机制来处理长文本。但随着文本长度的增加，计算量呈二次方增长，导致计算成本爆炸，模型也容易出现“遗忘”现象，难以捕捉远距离的依赖关系。

DeepSeek引入OCR的策略，巧妙地绕过了这一瓶颈。通过将图像转化为文本，并可能进一步解析版面信息，模型能够以一种更“概括”的方式获取信息。想象一下，模型不是逐字逐句地“背诵”一本厚厚的书，而是先将其“消化”成结构化的摘要，再进行深入分析。

这种方法的潜在优势是巨大的：

信息完整性： 减少因分割或采样带来的信息丢失。
效率提升： 将复杂的视觉信息转化为结构化文本，可能比原生处理视觉信息更为高效。
理解深化： 结合版面、布局等视觉线索，模型能获得更深层次的语义理解。

这意味着，未来我们可能会看到大模型在诸如：

金融分析： 快速理解包含图表、表格的年报、财报。
法律文本： 准确解析复杂合同、判决书中的图示和引用。
科研文献： 挖掘论文中的图表数据和实验流程。
代码理解： 分析含有流程图、UML图的代码设计文档。

等场景下，展现出前所未有的能力。

挑战与未来：OCR+LLM的融合之路

当然，DeepSeek的尝试并非没有挑战。OCR技术的精度、图像质量、以及将视觉信息转化为有意义的文本表示，都将是影响最终效果的关键因素。如何设计一个能够有效融合OCR输出和文本理解的模型架构，让两者相辅相成，而非简单的拼接，是技术上的难点。

然而，DeepSeek的这一步，无疑为大模型拓展上下文能力指明了一个新的、充满前景的方向。当ALBERT、GPT-4V等模型已经展示出强大的多模态理解能力时，DeepSeek通过OCR切入长文本处理，展现了其对技术 Lösungen 的独特思考。这或许预示着，未来的大模型将不再局限于纯粹的文本世界，而是能够更全面地“感知”和“理解”我们所处的复杂信息环境。长文本处理的“天花板”是否将被彻底打破？我们拭目以待。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DeepSeek新模型：OCR助推大模型突破上下文瓶颈，开启长文本处理新篇

DeepSeek 破局长文本：OCR 加持，大模型上下文难题迎刃而解？

发表回复

DeepSeek新模型：OCR助推大模型突破上下文瓶颈，开启长文本处理新篇

相关推荐

发表回复