多模态大模型的技术演进正步入深水区。相较于传统的“语言基座 + 插件”拼接式方案,原生多模态架构因其更高的信息密度与交互效率,逐渐成为学界与业界关注的焦点。此次发布的新型架构,正是在这一背景下的一次重要尝试,旨在探索物理世界信息离散化建模的可行性。
4 月 3 日,
技术核心:DiNA 架构实现「模态内化」
为打破模态之间的壁垒,
-
全模态统一:无论是文本、图像还是音频,模型均使用同一组参数、注意力机制和损失函数。
-
理解与生成对称:在统一的数学形式下,预测文本 Token 是“理解”,而预测图像 Token 则是“生成”。两者在训练过程中展现出显著的协同潜力。
-
极致压缩:采用 dNaViT 视觉分词器,支持任意分辨率输入,并通过 8 层残差矢量量化实现高达 28 倍的像素空间压缩,在 OCR 和财报解析等任务中保留了关键细节。
实证表现:离散建模并无「天花板」
-
细粒度感知:在 OmniDocBench 的密集文本场景中,其表现不仅超越了 Qwen3-Omni,甚至优于专用视觉模型 Qwen3-VL。
-
视觉推理:在 MathVista 上取得了 83.1 的令人印象深刻的分数,展示了强大的工业级逻辑能力。
-
跨模态协作:在保持领先的语言能力(C-Eval 86.80)的同时,支持低延迟的文本和语音并行生成以及可定制的声音克隆。
行业洞察:物理世界 AI 的基石
长期以来,大模型始终是以语言为中心的系统。
目前,
值得注意的是,离散化建模虽然解决了模态统一的问题,但在高分辨率图像处理上的算力开销仍需优化。此次开源举措将降低开发门槛,有助于社区共同探索原生多模态在实际应用场景中的边界与潜力。随着更多开发者介入,这一架构能否成为通往通用人工智能的关键拼图,值得期待。