近日,智源研究院发布了对国内外100多个开源及闭源大模型的全面评测结果,其中“豆包”系列大模型表现亮眼,引发业界广泛关注。评测涵盖了主观评价和客观指标,并特别注重模型的中文处理能力,这对于中国大模型发展具有重要意义。
在主观评测环节,豆包通用模型pro(Doubao-pro-32k-preview)在众多模型中脱颖而出,荣获榜首。智源研究院的Flageval评测平台已纳入全球800多个大模型,评测结果的权威性值得信赖。该平台与国内众多高校和机构合作,确保评测方法的科学性和严谨性。豆包通用模型pro能够获得专家评审团的一致认可,体现了其在中文理解和生成方面的卓越实力。
值得一提的是,豆包·视觉理解模型(Doubao-Pro-Vision-32k-241028)在多模态模型评测中也表现突出,在视觉语言模型分类中仅次于GPT-4,位列国产模型第一。这表明豆包系列在多模态领域也具备领先的竞争力,为其未来的应用拓展奠定了坚实基础。
在Flageval大模型角斗场榜单中,豆包通用模型pro排名第二,仅次于OpenAI的o1-mini,再次印证了其在大语言模型领域的强劲实力。 这表明豆包模型在处理复杂语言任务方面已达到国际先进水平。
自今年5月发布以来,豆包大模型的使用量持续攀升,日均tokens使用量已超过4万亿,增长了33倍。这不仅表明其应用场景日益广泛,也为模型的持续优化提供了宝贵的数据支撑。 高使用量意味着更丰富的反馈数据,可以帮助模型不断学习和改进。
此次升级后,豆包通用模型pro在多个关键能力方面都有显著提升:综合处理能力提升32%,推理能力提升13%,指令遵循能力提升9%,代码处理能力提升58%,数学能力提升43%,专业知识领域能力提升54%。这些提升使其能够更好地应对更为复杂的应用场景和任务。
豆包·视觉理解模型也在FORCE原动力大会上正式发布。该模型具备强大的内容识别、理解和推理能力,并能进行细腻的视觉描述,在教育、旅游、电商等领域具有广阔的应用前景。其低廉的价格(每千tokens仅需0.003元,比行业平均价格低85%)进一步降低了企业使用门槛,有望推动AI大模型在更多行业的普及。
总体而言,豆包系列大模型在本次评测中取得的成绩,展现了中国大模型技术的快速发展和潜在实力。 未来,随着技术的不断进步和应用场景的拓展,豆包大模型有望在更多领域发挥重要作用。