随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了显著提升。
借助思维链,大模型能够对任务进行深入分析,完成任务规划与拆解,从而胜任长周期、复杂度高的工作。同时,我们也能更直观地了解模型的推理与分析过程,从中发现执行环节中的问题,并有针对性地调整指令,以更高效地完成目标。
可以说,有了「深度思考」能力的推理模型,才使得现今的 AI 智能体拥有了多种辅助功能与自主能力。
然而,现在的大模型似乎有些偏科了。为了构建应用能力更强的智能体,对长周期复杂任务的追求已经影响到了大模型的推理模式。
特别是当大模型应用于实际工作流(如编码工作)时,这种负面效应更为显著。例如,在编码任务中,模型现在往往会进行较长时间的推理,倾向于在整个代码库中列出并搜索文件,对一些在开发中明显并不完整的代码边缘情况进行过度分析,甚至在极其简单的查询中也需要几分钟才能返回结果。
这种现象不仅限于编码任务,在日常使用 LLM 工具时也越来越常见。用户不得不频繁打断 LLM 的任务进程,以避免其进行不必要的复杂分析。例如,Karpathy 本人就在使用大模型时感受到了这一点,并发表了一篇长文指出这一令人困扰的现象。
「LLM 在默认状态下正变得比我日常使用需求更具『自主代理(Agentic)』倾向」,Karpathy 如是说。

尤其在处理简单的任务时,如在运行脚本前快速检查索引错误或其他低级错误,根本无需进行复杂的任务分析和代码处理。因此,Karpathy 不得不经常打断 LLM,并用类似的指令限制它:「停,你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。」
OpenAI 最近发布的 GPT-5 也意识到这一问题。他们在介绍中强调 GPT-5 是一个集成模型,也就是说,在使用时不需要在不同模型之间切换,它会根据任务的复杂度自我决定何时需要深入思考。然而,实际情况却并非如此理想。
例如,一次简单的图像生成请求,GPT-5 经历了 38 秒的思考,但仍未真正开始执行任务,导致用户不得不打断其进程。

或许这也是用户们怀念 GPT-4 的原因之一。GPT-4 在处理简单任务时通常更快捷和直接。
对于这种「过度思考」现象,Karpathy 认为其根源在于大模型「在长周期任务上进行了大量基准测试优化」。为在基准测试中取得高分,LLM 的思考模式更多地倾向于长周期复杂任务,从而影响了对普通任务的响应速度和效率。

他举例说明了两种典型情境:
- 1. 我招呼同事过来看我屏幕上打开的一个文件,问他「这样对吗?」
- 2. 我让某人坐在桌前,他们有 2 个小时来作答。这是一个高风险的考试,题目是「这样对吗?」
这两种情境揭示了大模型在处理任务时缺乏灵活性的问题。在第一种情境下,用户期望的是快速而简洁的回答;而在第二种情境下,详细的分析和深思熟虑是必要的。因此,大模型的发展不能完全以基准测试分数为导向,而应更加注重实际应用场景的需求。
许多网友也表示对「过度思考」的问题感同身受,甚至回到最朴素的使用方法,以避免这些不必要的麻烦。


正如 Karpathy 所指出的,当前我们需要一个相反的选项,以便更直接有效地表达或传达我们的意图和任务的紧迫程度。从「快速看一眼」到「花 30 分钟彻底确认后再回来」,都应能被精确指定。这样既能满足复杂任务的需求,又能避免简单任务的拖沓。
如果你也有相关的经历和想法,欢迎在评论区分享。