视觉与语音实现底层统一

多模态大模型的技术演进正步入深水区。相较于传统的“语言基座 + 插件”拼接式方案，原生多模态架构因其更高的信息密度与交互效率，逐渐成为学界与业界关注的焦点。此次发布的新型架构，正是在这一背景下的一次重要尝试，旨在探索物理世界信息离散化建模的可行性。

4 月 3 日，MiTi 团队正式发布原生多模态大模型 LongCat-Next。该模型突破了传统的“语言基础 + 插件”架构，通过将图像、语音和文本转换为同源的离散 Token，使 AI 能够像处理文本一样，原生地“看见”和“听见”物理世界。

技术核心：DiNA 架构实现「模态内化」

为打破模态之间的壁垒，MiTi 构建了 DiNA (Discrete Native Autoregressive) 架构，实现了多模态建模的深层统一：

全模态统一：无论是文本、图像还是音频，模型均使用同一组参数、注意力机制和损失函数。
理解与生成对称：在统一的数学形式下，预测文本 Token 是“理解”，而预测图像 Token 则是“生成”。两者在训练过程中展现出显著的协同潜力。
极致压缩：采用 dNaViT 视觉分词器，支持任意分辨率输入，并通过 8 层残差矢量量化实现高达 28 倍的像素空间压缩，在 OCR 和财报解析等任务中保留了关键细节。

实证表现：离散建模并无「天花板」

LongCat-Next 在多个维度展现出超越专用模型的性能，有效反驳了“离散化必然导致信息丢失”的传统观点：

细粒度感知：在 OmniDocBench 的密集文本场景中，其表现不仅超越了 Qwen3-Omni，甚至优于专用视觉模型 Qwen3-VL。
视觉推理：在 MathVista 上取得了 83.1 的令人印象深刻的分数，展示了强大的工业级逻辑能力。
跨模态协作：在保持领先的语言能力（C-Eval 86.80）的同时，支持低延迟的文本和语音并行生成以及可定制的声音克隆。

行业洞察：物理世界 AI 的基石

长期以来，大模型始终是以语言为中心的系统。LongCat-Next 的意义在于证明了物理信息可以像语言一样被离散化和建模。当 AI 拥有统一的“原生语言”时，其在调用工具、编写代码和理解复杂图表时将变得更加智能和直观。

目前，MiTi 已开源 LongCat-Next 模型和 dNaViT 分词器。这种紧凑且具有高潜力的原生离散架构，将为开发者构建能够感知并作用于现实世界的 AI 提供重要工具。

值得注意的是，离散化建模虽然解决了模态统一的问题，但在高分辨率图像处理上的算力开销仍需优化。此次开源举措将降低开发门槛，有助于社区共同探索原生多模态在实际应用场景中的边界与潜力。随着更多开发者介入，这一架构能否成为通往通用人工智能的关键拼图，值得期待。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。