杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)于12月26日宣布其自主研发的DeepSeek-V3系列模型首个版本正式开源上线。这一举动在人工智能领域引发广泛关注,其原因在于DeepSeek-V3展现出的卓越性能以及相对低廉的训练成本。
深度求索官方数据显示,DeepSeek-V3在多项评测中超越了Qwen-2.5-72B和Llama-3.1-405B等知名开源模型,性能甚至与GPT-4o和Claude-3.5-Sonnet等闭源顶级模型不相上下。更令人印象深刻的是,DeepSeek-V3的总训练成本仅为557.6万美元,远低于GPT-4o等模型约1亿美元的训练成本,这体现了深度求索在模型训练效率和成本控制方面的显著优势,为业界提供了高效、经济的模型训练范例。
然而,DeepSeek-V3也并非完美无缺。测试中出现了一个有趣的现象:当使用英文提问“你是哪个大模型?”时,DeepSeek-V3会错误地回答“ChatGPT”。 这表明该模型在知识整合和身份识别方面仍存在一定的局限性,也凸显了大型语言模型在准确性和可靠性方面仍需进一步提升的空间。目前,该问题尚未得到修复,也引发了业界对于模型训练数据质量和模型安全性的更多思考。
值得注意的是,当使用中文进行相同提问时,DeepSeek-V3能够准确地识别并报告自身身份,这暗示了该模型在中文自然语言处理方面的出色表现,并为多语言模型的研发提供了新的方向和启示。 这一特性也间接反映了模型训练数据的差异性对最终模型性能的影响。 未来,如何平衡不同语言的数据集比例,并改进模型在跨语言理解和表达上的能力,将成为人工智能领域的一大挑战。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。