DeepSeek,一支由年轻人才组成的AI团队,正以其令人瞩目的成就迅速崛起。近期,他们发布的DeepSeek-v3大模型,仅需Llama 3 405B模型约1/11的算力,便实现了优于后者的性能,引发了人工智能领域的广泛关注和热议。这一突破性进展,与其独特的团队构成和运作模式密不可分。

DeepSeek的成功并非偶然,其核心在于对年轻人才的重视和培养。团队成员中,应届生和在读生占比极高,尤其来自清华大学和北京大学的优秀毕业生构成了团队的中坚力量。这些年轻的研究员们,许多已经在学术界崭露头角,例如部分成员在参与DeepSeek项目的同时,其博士论文还获得了学术奖项的认可。一些核心成员更是在DeepSeek LLM v1 项目伊始就加入团队,并成长为如今的中流砥柱。 这种持续投入和人才梯队建设,是DeepSeek保持创新活力的关键。
DeepSeek-v2的成功,得益于两项关键技术创新:MLA(Multi-head Latent Attention)架构和GRPO算法。MLA架构由核心成员高华佐和曾旺丁(北京邮电大学毕业生,导师为北邮人工智能与网络搜索教研中心主任张洪刚)创新研发,大幅降低了计算量和推理显存需求。GRPO,则是PPO算法的一种改进型强化学习算法,由邵智宏(清华大学交互式人工智能(CoAI)课题组博士生,师从黄民烈教授)、朱琪豪(北京大学计算机学院软件研究所博士毕业生,发表多篇CCF-A类论文)和Peiyi Wang等核心成员在DeepSeek实习期间共同完成,显著减少了模型训练的资源消耗。

创始人梁文锋的管理理念是DeepSeek吸引和留住人才的关键。他强调团队的核心技术岗位主要由应届毕业生和毕业一两年的人员组成,更看重能力而非经验。这使得DeepSeek能够汇聚一批充满活力和创新精神的年轻人才。
此外,DeepSeek在国内AI公司中独树一帜地注重模型算法和硬件工程的协同发展。DeepSeek-v3论文中,共有200位作者参与,涵盖了算法、数据、硬件优化和算力提升等多个方面。这种软硬件一体化的研发模式,使得DeepSeek能够在极低的算力下实现高性能的大模型训练,这在国内AI领域实属罕见。

DeepSeek的运作模式与OpenAI颇为相似,都注重年轻人才的培养和使用,并从顶层设计驱动技术发展和资源投入。这种模式的成功,也为国内其他AI公司提供了借鉴和启示。未来,DeepSeek或许将成为中国AI公司中,最接近OpenAI组织模式的典范。