OpenAI GPT-4.5研发揭秘：全员投入，十万GPU挑战重重

近日，由OpenAI CEO 萨姆·阿尔特曼（Sam Altman）领衔，与 GPT-4.5 的核心技术团队进行了一场深度对话。这场时长45分钟的对话，首次向外界揭示了这款“史上最昂贵模型”背后不为人知的研发细节，包括项目时间严重超期、计算集群频繁出现故障，以及模型智能提升路径难以预测等挑战。本次对话也突显了OpenAI在大模型研发道路上所经历的困境和技术突破。

据了解，GPT-4.5 项目启动于两年前，是 OpenAI 迄今为止规模最为庞大的项目，汇集了数百名工程师和研究人员的力量。阿尔特曼表示，OpenAI 为此几乎是“全员上阵”。然而，在研发过程中，团队遭遇了大量的“灾难性问题”，尤其是在计算集群从 1 万卡扩展到 10 万卡时，那些在小规模测试中难以察觉的小概率、深层次故障开始集中爆发，迫使整个系统团队不得不进入“边修边训”的调试模式。根据透露，一个隐藏的 bug 甚至在训练进度达到约 40% 时才被发现并最终得以解决。

尽管面临诸多挑战，GPT-4.5 的研发过程客观上也推动了 OpenAI 技术栈的显著进步。据透露，如今 OpenAI 仅需 5 至 10 人的团队即可复刻出 GPT-4 级别的大模型。更令人惊讶的是，从 GPT-4 到 GPT-4.5，模型的性能提升达到了约 10 倍，这种“难以量化但全方位增强的智能”让 OpenAI 员工也倍感意外。值得注意的是，OpenAI 的员工也提出，如果要实现下一个 10 倍乃至百倍的性能提升，单纯依靠算力堆砌已经不再是核心，数据效率将成为关键所在。这也预示着大模型研发的重心将逐步转向数据处理和算法优化。

对话中，负责 GPT-4.5 预训练机器学习算法的 Alex Paino、OpenAI 首席系统架构师 Amin Tootoonchian 和研究数据效率与算法的 Daniel Selsam 等核心成员还分享了数据长尾效应与 Scaling Law 之间的关系、机器学习与系统团队深度协同设计模式的优势，以及无监督学习的本质。他们认为，未来的训练很可能涉及 1000 万块 GPU 规模的协作学习，这将对系统的容错能力提出前所未有的要求。这也意味着，未来的大模型训练不仅需要强大的算力支持，更需要高效、稳定的系统架构。

Amin Tootoonchian 在谈到集群规模扩展时指出，10 万卡集群暴露了基础设施的诸多潜在问题，而这些问题在小规模阶段往往难以被发现。但他强调，尽管面临诸多挑战，团队通过不断增加计算资源和持续优化系统，最终成功完成了训练任务。

Alex Paino 则重点分享了 GPT-4.5 在性能上的显著提升，他透露 GPT-4.5 比 GPT-4 聪明 10 倍，这一成果主要得益于团队在算法和数据效率方面的不断创新。Daniel Selsam 也强调了数据效率在未来大模型研发中的重要作用，并认为开发出能够利用更多算力从同样数量的数据中学到更多知识的方法是突破当前瓶颈的关键。

此外，本次对话也涉及了系统架构的转变。Amin Tootoonchian 表示，随着模型规模的扩大，系统正从单集群架构向多集群架构演进。这种转变对系统的容错能力和数据一致性提出了更高的要求，需要团队进一步优化系统设计，以确保模型训练的稳定性和可靠性。

展望未来，OpenAI 员工表示，他们将继续探索数据效率和算法创新的可能性，以期实现更大规模的预训练和更强大的模型智能。他们坚信，随着技术的不断进步，未来的 AI 系统将在更多领域展现出令人惊叹的能力，并为人类社会带来更广泛的变革。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

OpenAI GPT-4.5研发揭秘：全员投入，十万GPU挑战重重

相关推荐

发表回复