腾讯科技方面宣称,该模型**准确识别图像元素并生成自然语言描述**,全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型,腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。
IT之家查询得知,8 月榜单中涵盖国内外最具代表性的 12 个多模态理解大模型。腾讯混元大模型在总榜上位居第二,仅次于 **GPT-4o**。GPT-4o 取得 74.36 分,领跑多模态基准,基础多模态认知能力和应用能力均有 70 + 分的表现,在技术和应用方面均有一定领先优势。
SuperCLUE 评价称,在基础能力方面,国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有 5 分的差距,需要进一步对多模态深度认知能力做优化提升。
本次测评选取了 **4 个海外模型和 8 个国内代表性多模态模型**。其中为进一步评估开源和闭源的不同进展,本次参评模型包括 **4 个开源模型、8 个闭源模型**。
本次榜单的发布显示了多模态大模型领域的技术进步,腾讯混元大模型在国内大模型中取得第一,反映了其在多模态理解方面的技术实力。同时,榜单也表明,国内大模型在多模态深度认知能力方面与海外模型仍存在差距,未来需要继续在技术研发上投入力量,以缩小差距,推动多模态大模型技术的发展。
值得注意的是,SuperCLUE 基准选取了 12 个国内外最具代表性的多模态模型进行评测,这体现了 SuperCLUE 基准的权威性和公正性。同时,榜单也为国内外多模态大模型技术的进步提供了参考,有利于推动多模态大模型技术的发展。
未来,随着多模态大模型技术的不断发展,多模态大模型将在更多领域发挥重要作用,例如,在自然语言处理、计算机视觉、语音识别等领域,多模态大模型可以有效地提高任务的效率和准确性。