在万物互联、智能涌现的时代浪潮中,大模型技术的迭代与突破,正以前所未有的速度重塑着各行各业的格局。2月14日,国内领先的科技企业京东(JD.com)在此领域投下重磅一枚,正式将旗下最新一代大语言模型JoyAI-LLM-Flash开源发布至Hugging Face平台。此举不仅标志着京东在AI研发上的又一里程碑,也为全球开发者社区注入了新的活力。
JoyAI-LLM-Flash拥有4.8亿参数量,其中3亿参数处于激活状态。其强大的基础源于海量数据的淬炼,模型在高达20万亿(20 trillion)的文本token上进行了预训练。这意味着它在理论上能够比肩甚至是超越现有的一些尖端模型,对于前沿知识的理解、复杂的逻辑推理以及编程的掌握,都展现出了卓越的实力。这对于需要深度理解和快速响应的应用场景而言,无疑是注入了一剂强心针。
在技术架构上,JoyAI-LLM-Flash采用了创新的FiberPO优化框架。该框架别出心裁地将“纤维束理论”(fiber bundle theory)引入了强化学习的范畴,并与先进的Muon优化器以及密集多token预测(MTP)技术相结合。这一系列精心设计的组合拳,有效解决了困扰经典大模型扩展时普遍存在的稳定性难题。实测数据显示,与未使用MTP的版本相比,JoyAI-LLM-Flash的吞吐量实现了1.3至1.7倍的显著提升。换言之,这意味着在相同的计算资源下,模型能够更快地处理信息、生成响应,大大提升了训练效率和实际应用的可行性。
模型整体采用了混合专家模型(MoE)的架构,共计40层。值得关注的是,它支持高达128K的超长上下文长度,以及129K的词汇量。这意味着模型可以处理更庞大、更复杂的信息序列,并理解更精细的语言差异。这在处理长篇文档、深入对话以及理解专业领域术语时,将发挥巨大作用。JoyAI-LLM-Flash的发布,无疑是京东在人工智能领域的一次重大技术宣告,预示着其在AI技术自主研发道路上迈出了坚实而充满自信的一步,为行业发展提供了新的可能性。