Meta 针对 OpenAI 的挖人竟然还在继续!
就在不久前,外媒 Wired 的一位资深 AI 领域记者爆料称,「多个消息源证实,OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职,投奔 Meta。」这或许是迄今为止,扎克伯格挖走的最强技术人才。



如果你对他们的印象还不够深,可以回顾一下去年 12 月 OpenAI 连续两周的新产品发布会。坐在奥特曼旁边的就是 Hyung Won Chung,最右边的是 Jason Wei。这两位研究员都毕业于麻省理工学院,曾在谷歌工作,现在可能一起去了 Meta。

爆料消息出来不久,Jason Wei 并没有直接回应,而是发了一篇推特,介绍其长博客,探讨了验证非对称性以及「验证者」法则。但评论区的网友们似乎已经不关心他写了什么,都在恭喜他跳槽到 Meta。

在发布这篇技术博客后不久,Jason Wei 又发了一条推特,内容如下:
过去一年中,我成为了一名强化学习(RL)的狂热爱好者,并且大部分清醒的时间都在思考 RL。这无意中教会了我一个如何过好自己生活的重要道理。
RL 中的一个核心概念是,你总是希望处于「同策略(on-policy)」状态:与其模仿别人成功的轨迹,不如采取自己的行动,并从环境给予的奖励中学习。虽然模仿学习(imitation learning)在最初引导模型达到非零通过率时很有用,但一旦模型能走出合理的轨迹,我们通常会避免模仿学习,因为要充分发挥模型自身(与人类不同)的优势的最佳方式是只从它自己的轨迹中学习。例如,在训练语言模型解决数学应用题方面,强化学习比简单地用人类编写的思维链进行监督微调效果更好。
人生也是如此。我们最初通过模仿学习(学校教育)来引导自己,这非常合理。但即使在我毕业后,仍有一个习惯:研究别人如何取得成功并试图模仿他们。有时这会奏效,但最终我意识到,我永远无法完全超越他人,因为他们是在发挥他们的优势,而这些优势我可能并不具备。这可能是某位研究人员比我更成功地进行大胆尝试(运行 yolo),因为他们亲自搭建了代码库而我没有;或者一个非 AI 的例子:一位足球运动员利用我不具备的力量优势保持控球权。
进行同策略 RL 带来的启示是:要超越前辈(beat the teacher),必须走自己的路,承担风险并从环境中获取回报。例如,比起一般的研究人员,我更喜欢做两件事:(1) 大量审阅数据,(2) 进行消融研究以理解系统中各个组件的作用。有一次在收集数据集时,我花了几天时间审阅数据并给每位人类标注员提供个性化反馈,之后数据质量变得极佳,并且我对要解决的任务获得了宝贵的见解。今年早些时候,我花了一个月时间回溯并逐一消融研究之前在做深度研究时尝试做的每个决策。这花费了相当多的时间,但通过这些实验,我学到了关于哪种类型的 RL 效果好的独特经验。发挥自己的热情让我更有满足感,而且我现在感觉自己正走在为自己和自己的研究开辟一片更强大天地的道路上。
简而言之,模仿是好的,你必须在初始阶段这样做。但一旦你完成了足够的引导,若想超越前辈,就必须进行「同策略」的强化学习,学会扬长避短。
接下来,我们来看这两位研究员的履历。
Jason Wei
2023 年 2 月,Jason Wei 加入 OpenAI,工作内容包括了推理模型 o1 和深度研究模型。他在 Google Scholar 主页上的论文引用量已经超过了 77k,其中前两位分别是 CoT 提示论文和 GPT-4 技术报告。


Hyung Won Chung
Hyung Won Chung 出生于韩国,现为 OpenAI 研究科学家,专注于大型语言模型(LLM)的研究与应用。他博士毕业于麻省理工学院,之后曾在谷歌从事了三年多的研究工作,期间参与了 PaLM(具有 5400 亿参数的大语言模型)、 BLOOM(1760 亿参数的开放式多语言模型)、Flan-T5 等多个重要项目的研发。离开谷歌后,Hyung Won Chung 于 2023 年加入 OpenAI,参与了多个重大项目的研究,特别是在以下项目中扮演了关键角色:o1-preview(2024 年 9 月),o1 正式版(2024 年 12 月)、Deep Research(2025 年 2 月),以及领导了 Codex mini 模型训练。

在 OpenAI 工作期间,Hyung Won Chung 还参与了多个重大项目的发布会,他在开发大语言模型的推理、搜索信息能力,以及使用强化学习策略方面发挥了重要作用。Hyung Won Chung 还在多个重要场合分享洞见,包括斯坦福 CS25 讲座,广受好评。

Hyung Won Chung 在 OpenAI 的研究工作中,他的贡献不仅推动了 o1 系列模型成为具有思考能力的前沿工具,还在编码智能体、系统评估和安全保障方面开辟了新路径,形成了一个从理论到应用、从开发到普及的完整研究生态。
随着 Jason Wei 和 Hyung Won Chung 两位研究人员的离开,OpenAI 真的要被挖麻了。