在人工智能推理应用日趋普及的背景下,算力解决方案提供商正在不断创新,以满足市场对高性能、低成本推理的需求。近日,国内领先的软硬协同算力解决方案提供商毅伯智算宣布推出其自研的8卡推理一体机TORA3000,该产品搭载了高性能的DeepSeek-R1-671B满血版模型,引起了业界的广泛关注。
不同于一些厂商选择牺牲精度换取效率的做法,毅伯智算TORA3000坚持采用满血版模型,这表明其致力于为用户提供最高质量的推理服务。要知道,在例如代码生成、知识图谱构建等复杂任务中,满血版模型能够更加充分地利用其知识储备,从而获得更精准的结果。相比之下,蒸馏版模型虽然在特定场景下能够满足需求,但在处理复杂任务时往往显得力不从心,存在知识压缩带来的精度损失。因此,对于需要处理复杂任务的大中型企业而言,选择满血版推理一体机是确保业务迭代和高密度推理需求的关键。
然而,满血版模型对硬件的要求极高,尤其是显存的需求。这也是目前市场上满血版推理一体机部署方案多样化的根本原因。受限于GPU硬件性能,传统的双机甚至四机方案在部署满血版模型时面临诸多挑战,包括硬件成本翻倍、功耗增加,以及由此带来的组网和运维成本上升。特别是在DeepSeek原生FP8精度下,流畅运行满血模型需要单卡显存大于120G(整机显存大于1000GB)的配置。一旦显存不足,则不得不采用多机部署,或者牺牲精度对模型进行量化。
为了解决这一痛点,毅伯智算TORA3000应运而生。TORA3000不仅原生支持DeepSeek-R1-671B所采用的FP8精度,还兼容FP64/32/16及INT8,确保了推理精度的同时,最大程度地降低了部署成本。更重要的是,TORA3000的单卡显存超过120GB,满足了高性能推理的硬件需求,避免了因显存不足而不得不采用多机部署的困境。
据悉,目前市场上满足这一硬件配置的同类产品并不多,除了TORA3000外,仅有英伟达的H20-141G。为了验证TORA3000的实际性能,毅伯智算采用了开源数据集和测试工具,对TORA3000和H20-141G进行了推理性能对比测试。测试结果显示,TORA3000的性能相较于H20-141G提升了高达40%,在推理速度上具有显著优势,成功跻身业界领先水平。这一性能提升,得益于毅伯智算在软硬件协同优化方面的深厚积累。
值得一提的是,毅伯智算在人工智能与超算领域拥有深厚的研发实力,其百余人的AI工程师团队均拥有十年以上的行业经验。自2022年起,该团队便专注于全栈式AI训推平台的研发,并于次年成功推出。TORA3000正是在此平台基础上,经过软硬件一体化深度优化后的成果。此外,TORA3000还通过全自研的算子库、编译技术和推理框架等技术手段,实现了更快的计算效率、长文本和高并发请求的支持,以及更高的推理性能。
TORA3000作为一款开箱即用、无需复杂配置和调试的软硬件一体化产品,凭借其在硬件配置、软件优化和性价比方面的优势,为企业用户提供了一个高效、可靠和经济的推理解决方案,有望在人工智能推理市场占据一席之地。