LLM过于复杂化简单任务，Karpathy：有些事不需要多想

随着推理大模型和思维链的出现与普及，大模型具备了「深度思考」的能力，不同任务的泛用性得到了显著提升。

借助思维链，大模型能够对任务进行深入分析，完成任务规划与拆解，从而胜任长周期、复杂度高的工作。同时，我们也能更直观地了解模型的推理与分析过程，从中发现执行环节中的问题，并有针对性地调整指令，以更高效地完成目标。

可以说，有了「深度思考」能力的推理模型，才使得现今的 AI 智能体拥有了多种辅助功能与自主能力。

然而，现在的大模型似乎有些偏科了。为了构建应用能力更强的智能体，对长周期复杂任务的追求已经影响到了大模型的推理模式。

特别是当大模型应用于实际工作流（如编码工作）时，这种负面效应更为显著。例如，在编码任务中，模型现在往往会进行较长时间的推理，倾向于在整个代码库中列出并搜索文件，对一些在开发中明显并不完整的代码边缘情况进行过度分析，甚至在极其简单的查询中也需要几分钟才能返回结果。

这种现象不仅限于编码任务，在日常使用 LLM 工具时也越来越常见。用户不得不频繁打断 LLM 的任务进程，以避免其进行不必要的复杂分析。例如，Karpathy 本人就在使用大模型时感受到了这一点，并发表了一篇长文指出这一令人困扰的现象。

「LLM 在默认状态下正变得比我日常使用需求更具『自主代理（Agentic）』倾向」，Karpathy 如是说。

尤其在处理简单的任务时，如在运行脚本前快速检查索引错误或其他低级错误，根本无需进行复杂的任务分析和代码处理。因此，Karpathy 不得不经常打断 LLM，并用类似的指令限制它：「停，你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。」

OpenAI 最近发布的 GPT-5 也意识到这一问题。他们在介绍中强调 GPT-5 是一个集成模型，也就是说，在使用时不需要在不同模型之间切换，它会根据任务的复杂度自我决定何时需要深入思考。然而，实际情况却并非如此理想。

例如，一次简单的图像生成请求，GPT-5 经历了 38 秒的思考，但仍未真正开始执行任务，导致用户不得不打断其进程。

或许这也是用户们怀念 GPT-4 的原因之一。GPT-4 在处理简单任务时通常更快捷和直接。

对于这种「过度思考」现象，Karpathy 认为其根源在于大模型「在长周期任务上进行了大量基准测试优化」。为在基准测试中取得高分，LLM 的思考模式更多地倾向于长周期复杂任务，从而影响了对普通任务的响应速度和效率。

他举例说明了两种典型情境：

1. 我招呼同事过来看我屏幕上打开的一个文件，问他「这样对吗？」
2. 我让某人坐在桌前，他们有 2 个小时来作答。这是一个高风险的考试，题目是「这样对吗？」

这两种情境揭示了大模型在处理任务时缺乏灵活性的问题。在第一种情境下，用户期望的是快速而简洁的回答；而在第二种情境下，详细的分析和深思熟虑是必要的。因此，大模型的发展不能完全以基准测试分数为导向，而应更加注重实际应用场景的需求。

许多网友也表示对「过度思考」的问题感同身受，甚至回到最朴素的使用方法，以避免这些不必要的麻烦。

正如 Karpathy 所指出的，当前我们需要一个相反的选项，以便更直接有效地表达或传达我们的意图和任务的紧迫程度。从「快速看一眼」到「花 30 分钟彻底确认后再回来」，都应能被精确指定。这样既能满足复杂任务的需求，又能避免简单任务的拖沓。

如果你也有相关的经历和想法，欢迎在评论区分享。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

LLM过于复杂化简单任务，Karpathy：有些事不需要多想

关于作者

AI快讯网编辑-青青

LLM过于复杂化简单任务，Karpathy：有些事不需要多想

关于作者

AI快讯网编辑-青青

相关推荐