摩尔线程发布夸娥智算集群KUAE 1.2,连续无故障训练15天!

Rain科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本。该版本在软硬件层面进行了全面的优化,实现了功能和性能的多维升级,并提升了稳定性和生态友好性,为大模型训练提供了更加坚实可靠的算力支撑。

夸娥1.2版本的主要升级点包括:

**模型算力利用率(MFU)提升**

新版本在使用千卡集群训练千亿模型时,MFU提升了10%。在稠密模型集群训练中,MFU最高可达55%。

**Flash Attention2优化**

通过集成最新的MUSA SDK平台和优化后的Flash Attention2技术,并结合新版Torch MUSA和算子融合,夸娥1.2显著提升了大模型训练的效率和资源利用率,大幅缩短了训练周期,并降低了整体成本。

**64K长文本支持**

该版本增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力。此优化能够更好地应对文档摘要、文章写作等复杂的语言处理任务。

**支持混合专家模型MoE**

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。这项升级不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

**断点续训功能**

夸娥1.2进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高了训练效率。

**DeepSpeed优化**

该版本支持DeepSpeed和Ulysses的适配和性能优化,强化了长文本训练支持。它还适配了国内外多款大模型,并在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

**稳定性提升**

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断和故障恢复能力。

**可视化/可观测功能**

夸娥1.2引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗和性能分析数据,有助于快速发现和恢复训练期间的故障,满足大模型上的性能调优需求。

**内置模型库更新**

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型,进一步丰富了模型库的选择。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 2024年 8月 19日 下午5:29
下一篇 2024年 8月 19日 下午9:11

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!