Rain科技10月13日消息,近日,苹果公司发布了300亿参数的多模态AI大模型MM1.5。该模型基于前代MM1架构进行改进,延续了数据驱动的训练原则,并对不同训练周期中混合数据类型对模型性能的影响进行了深入研究。相关模型文档已在Hugging Face平台发布。

MM1.5提供从10亿到300亿参数的多种规模选择,并具备图像识别和自然语言推理能力。值得关注的是,苹果公司在MM1.5的研发中,着重优化了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的性能。
根据发表的论文,研究团队在MM1.5的持续预训练阶段引入了高质量的OCR数据和合成图像描述,这有效提升了模型对包含大量文本图像的理解能力。此外,在监督式微调阶段,研究人员深入分析了不同数据类型对模型性能的影响,并优化了视觉指令微调数据的混合方式。这一改进使得即使是参数规模较小的模型(例如10亿或30亿参数版本)也能展现出优异的性能,提高了模型训练效率。
更进一步的是,苹果公司还推出了两个专门针对特定应用场景的模型:MM1.5-Video,用于视频理解;以及MM1.5-UI,专门用于处理移动设备用户界面(UI)的理解。其中,MM1.5-UI模型被视为未来iOS系统的潜在“苹果牌”AI核心,它能够处理各种视觉引用与定位任务,总结屏幕上的功能,并通过与用户的对话进行交互。
虽然MM1.5在多个基准测试中表现出色,但苹果团队并未止步于此。他们计划通过进一步融合文本、图像和用户交互数据,并设计更复杂的模型架构,来持续提升MM1.5对移动设备UI的理解能力,最终打造一个更加强大的“苹果牌”AI。
总而言之,苹果公司发布的MM1.5及其衍生模型代表了其在多模态AI领域的一次重要尝试。通过对数据处理策略和模型架构的改进,MM1.5在多个任务上取得了显著的性能提升,未来在iOS系统中的应用也值得期待。其模块化的设计思路,也为未来AI模型的开发提供了新的参考方向。