大模型爆发倒逼算力升级，火山引擎分享“AI全栈云”经验

近年来，AI 大模型的快速发展推动了算力需求的爆发式增长，给云基础设施带来了前所未有的挑战。云服务商需要在集群建设与管理、性能、稳定性等方面进行全面的升级，以满足日益增长的算力需求。

火山引擎基于字节跳动在大模型领域的丰富经验，结合自身技术优势，打造了高性价比的算力资源和一站式资源服务，为企业 AI 转型落地提供有力支持。在 2024 年 8 月 21 日举办的火山引擎 AI 创新巡展上海站活动上，火山引擎云基础产品负责人罗浩发表了精彩演讲，详细介绍了火山引擎应对算力需求升级的具体方法和措施。

罗浩指出，早在 2019 年，火山引擎就已经洞察到 Transformer 技术带来的更大规模算力需求。随着算力的大规模爆发，计算模式也发生了转变，从传统的“单节点模式”演化至“集群模式”。

为了满足 AI 领域不断增长的算力需求，火山引擎率先打造了更新的基础设施，包括新一代 GPU 型算力以及能够容纳这些算力的新一代机房等。与此同时，火山引擎还开发了新一代互联技术，将多达数十万个计算节点互联起来，并支持近似线性加速比。

罗浩进一步解释了在应对大规模算力需求方面的技术挑战。随着 AI 大模型的发展，任务从单节点演变为多节点，甚至达到万卡规模，故障域也随之扩大。面对如此庞大的故障域，如何快速识别故障节点并及时剔除，以节省计算成本，成为了一个巨大的挑战。

火山引擎云基础产品负责人罗浩

针对这些挑战，火山引擎提出了“AI 全栈云”的概念，涵盖三个主要方面：

第一，集中使用资源和算力，最大程度地避免分布式数据中心建设带来的算力孤岛和存储孤岛问题。

第二，将 IaaS 层产品、PaaS 层产品、数据产品、安全产品、推荐算法以及 AI 产品全部整合到同一朵云上，采用相同的软件架构和通信协议，确保数据流动和业务通信的效率和安全性。

第三，将大算力资源池建设与自研硬件结合，并结合自研网络通信协议和拥塞控制算法等技术，实现规模更大、性能更强、稳定性更高、成本更优的云服务。

罗浩表示，目前火山引擎已经能够在分钟级别调度千卡规模资源池，以应对弹性任务需求。单机互联能力也从 800G 提升到了 3.2T，增长了 4 倍。此外，火山引擎还提供覆盖全球的网络，支持 2TB/秒吞吐并行文件存储。

在高可用方面，火山引擎建立了完善的压测左移体系，在批量机器交付之前，会对集群进行抽样测试，确保高可用性。通过压测能力，火山引擎能够快速发现问题，并结合冷迁移技术，将故障节点剥离出去，确保任务持续运行。

成本方面，火山引擎除了对大规模算力资源池进行集中使用之外，对于 loadbook、DevOps 等短期任务，还会提供单张卡或 0.5 张卡等更加灵活、更小粒度的资源使用方式。同时，火山引擎的网络负载均衡能够感知训练推理体系中的 KV Cache 和过热导致的调度不均匀问题，进一步提升调度效能。

在存储方面，除了 VPFS 超大规模、超大性能存储之外，火山引擎还提供 LAS 缓冲层、CFS、TOS 等分层性价比更高的存储方案。

罗浩强调，火山引擎基于字节跳动在大模型领域的实践经验，以技术驱动的极致性价比，让大模型人人用得起，并陪伴客户共同成长。未来，火山引擎全栈 AI 服务将持续助力企业 AI 转型落地，激发业务增长潜能。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

大模型爆发倒逼算力升级，火山引擎分享“AI全栈云”经验

相关推荐

发表回复