近期,一场在日本科技界备受瞩目的发布会,却演变成一场关于技术透明度的公开争议。日本科技巨头乐天集团(Rakuten Group)高调宣布了其声称自主研发的“最大、最强”大模型。这款拥有700亿参数的模型,是得到日本经济产业省(METI)GENIAC项目支持下的重要成果。然而,模型发布后不久,开源社区便质疑其是否仅仅是现有模型的“空壳”。
经过开发者深入挖掘,模型底层的架构和配置文件`config.json`赫然指向一个由中国团队开发的基础模型。数据显示,乐天的模型不仅保留了“DeepseekV3ForCausalLM”的命名,实际上是在此基础上,结合日本本地数据进行了微调(fine-tuning),而非从零开始的全新独立开发。
这场争议的核心,在于乐天集团在信息披露和许可协议处理上的“灰色地带”:
信息披露的缺失:在官方新闻稿中,乐天集团仅模糊提及“整合了开源社区的精华”,却未明确提及所依赖的基础模型的具体来源。
许可协议的处理争议:社区成员指出,乐天在模型初次发布时,可能删除了带有强制性要求的MIT许可协议文件。尽管事后补上了`NOTICE`文件以满足法律规定,但这种“亡羊补牢”的做法被批评为缺乏开放性和诚意。
截至目前,乐天集团尚未就删除许可协议文件以及底层架构的高度一致性问题,给出直接且明确的回应。
客观分析:
在此事件背后,折射出在大模型快速迭代的当下,企业在追求技术突破的同时,如何平衡自主研发的叙事与对开源生态的尊重,正成为一个全球性的挑战。开源社区的价值在于其开放性、协作性和透明度,任何试图模糊开源贡献、隐瞒技术溯源的行为,都可能触碰社区的底线,并引发信任危机。乐天此次事件,无疑为其他在AI领域投入的企业敲响了警钟:技术的进步,不应以牺牲透明度为代价。
AI大模型的研发,本质上是一个不断借鉴、融合、创新的过程。开源项目作为宝贵的知识库和技术基石,为许多研究和商业应用提供了强有力的支撑。尊重并恰当引用开源成果,不仅是法律合规的要求,更是对社区贡献者的致敬,也是企业可持续发展的重要基石。此次事件的后续发展,将可能对未来类似项目的披露标准和社区协作模式产生影响。