阿里云全栈AI高可用架构发布，共筑AI时代云上新治理体系

近日，在中国信息通信研究院主办的“GOLF+IT新治理领导力论坛”上，阿里云重磅发布了其全栈AI负载高可用架构。此举旨在应对企业级AI大模型应用对云服务处理能力日益严苛的要求，尤其是在大规模参数、复杂结构和高性能算力背景下，确保系统的可扩展性、服务连续性、服务质量以及快速故障恢复能力。

阿里云的这一架构的核心目标，是为生成式AI (Gen AI) 应用提供持续卓越的用户体验。其关键特性包括：GPU故障预测准确率高达92%；在千卡规模集群中，连续训练有效时长超过99%；支持秒级模型自动保存和分钟级故障恢复；具备每分钟扩展10000个pod的能力，实现分钟级自动扩容；核心模型服务API SLA达到99.99%，并确保模型应用服务的全链路可观测性。这些特性显著提升了Gen AI应用在海量数据处理和训推场景下的业务连续性、响应速度、稳定性和安全性。

值得关注的是，在本次论坛上，2025年中国数字化治理领域的最新评估结果也同步发布。阿里云凭借其在云治理方面的突出表现，成为首批通过信通院“企业用云治理能力成熟度评估”的两家企业之一，并荣获该评估的最高等级——L4+。此项殊荣不仅是对阿里云云治理能力的权威认可，更体现了其在推动企业数字化转型方面的卓越贡献。这无疑也增强了阿里云在AI大模型产业链中的竞争力。

面对AI算力需求的爆炸式增长以及Gen AI应用的快速发展，云上企业面临着指数级增长的数据量和高负载环境下的严峻挑战。阿里云的全栈AI负载高可用架构正是对此的积极回应。该架构整合了GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等资源，实现了云平台技术服务能力的全面升级。

在高可用模型训练方面，阿里云将AI基础设施的高可用性融入云服务整体架构设计，利用AI算法进行故障预测，并实现训推环节的性能瓶颈和潜在故障分析。其GPU故障预测准确率高达92%，并通过异常预测自愈链路，将训练恢复自愈率提升至90%以上。此外，CPFS高性能存储集群在超大集群中拥有20TB/s的吞吐能力，支持更大、更频繁的Checkpoint读写，有效防止数据丢失，增强了训练的稳定性和可靠性。阿里云自研的高性能网络架构，则采用业界首创的双平面高可用网络架构，在网络Link和设备中断时，也能保证训练任务不中断。

在推理资源方面，阿里云容器计算服务ACS的弹性扩展能力，每分钟可扩展10000个pod，实现分钟级自动扩容。PAI-EAS模型在线服务则适用于多种AI推理场景，包括实时推理和近实时异步推理，并通过更公平的任务调度提高扩缩容效率。阿里云还将跨区域主动式重路由技术应用于数据中心间通信，实现跨域带宽业界最高的99.995% SLA，并支持秒级重新路由，确保稳定的网络通信延迟。

针对实时语音交互、实时AI搜索等高性能推理场景，阿里云百炼模型服务平台提供基于预训练模型的模型推理与应用构建托管服务，核心模型服务API的SLA达99.99%，高性能场景核心用户用例的首包延时小于300毫秒，有效解决了应用开发、模型调用过程中的跨区域TPM限制和高并发需求下API响应变慢等问题，提升了用户体验。

在数据高可靠性方面，阿里云数据存储与数据库服务与不同计算引擎和多种AI框架深度集成，构建了能够承载PB级甚至EB级大规模数据的统一存储底座。其同城冗余容灾能力高达99.995% SLA，数据多副本冗余、大文件断点续传、批量和多线程数据操作等机制，确保了数据服务的高可靠性。该架构支持面向单AZ、双AZ、三AZ及跨Region的高可用服务，并实现跨Region AI数据的就近读写和负载均衡，满足AI数据多活的强一致性要求。

阿里云认为，构建可靠的系统是云厂商与用户共同的责任。云厂商需确保云服务可用性符合或超过服务等级协议；用户则需根据业务需求选择合适的产品服务，并参考云相关文档搭建高可用架构，以保障云上应用的可靠性。阿里云不仅提供全栈AI负载高可用架构，还致力于与用户共同构建AI-Native的智能化、自动化和可持续的IT治理体系，并推出了卓越架构Well-Architected framework，帮助企业在云上构建安全、稳定、高效的应用环境。

阿里云在企业用云治理能力方面已取得显著成就，其在信通院的评估中获得L4+等级，这是目前云服务提供商所能获得的最高等级。阿里云持续与信通院、埃森哲等机构合作，深入研究云治理最佳实践，并发布相关报告，为企业提供参考和决策依据，共同推进中国企业数字化转型。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

阿里云全栈AI高可用架构发布，共筑AI时代云上新治理体系

相关推荐

发表回复