Rain科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本。该版本在软硬件层面进行了全面的优化,实现了功能和性能的多维升级,并提升了稳定性和生态友好性,为大模型训练提供了更加坚实可靠的算力支撑。
夸娥1.2版本的主要升级点包括:
**模型算力利用率(MFU)提升**
新版本在使用千卡集群训练千亿模型时,MFU提升了10%。在稠密模型集群训练中,MFU最高可达55%。
**Flash Attention2优化**
通过集成最新的MUSA SDK平台和优化后的Flash Attention2技术,并结合新版Torch MUSA和算子融合,夸娥1.2显著提升了大模型训练的效率和资源利用率,大幅缩短了训练周期,并降低了整体成本。
**64K长文本支持**
该版本增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力。此优化能够更好地应对文档摘要、文章写作等复杂的语言处理任务。
**支持混合专家模型MoE**
MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。这项升级不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。
**断点续训功能**
夸娥1.2进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高了训练效率。
**DeepSpeed优化**
该版本支持DeepSpeed和Ulysses的适配和性能优化,强化了长文本训练支持。它还适配了国内外多款大模型,并在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。
**稳定性提升**
千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断和故障恢复能力。
**可视化/可观测功能**
夸娥1.2引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗和性能分析数据,有助于快速发现和恢复训练期间的故障,满足大模型上的性能调优需求。
**内置模型库更新**
KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型,进一步丰富了模型库的选择。
