随着生成式AI和预测式AI技术的快速发展,我们正经历一波又一波的创新浪潮。这导致工作负载的类型日益多样化,复杂度也随之增加,进而对AI服务器的性能和能效提出了更高的要求。
每当谈及AI服务器、AI工作站以及AI一体机等设备时,许多人的第一反应便是那些拥有强大算力的AI GPU加速器。
GPU加速器在AI系统中扮演着主角的角色,肩负着最为繁重的计算使命。然而,我们不能忽略的是,仅凭GPU加速器是无法独立支撑起整个AI系统的运行的。正如任何计算系统都需要CPU处理器坐镇指挥一样。
CPU处理器作为整个计算系统的核心和控制中心,即使在AI系统中也发挥着不可替代的关键作用,只不过它一直以来都相对低调。
如果将GPU加速器比作AI系统中在前台展示耀眼技术的明星,那么CPU处理器就是隐藏在幕后,默默奉献的总管家,负责协调整个系统的高效运行,特别是确保GPU加速器的各项需求能够得到充分满足,使其强大的算力得以高效释放。在AI加速系统中,CPU扮演着至关重要的角色。
因此,在这样的应用场景下,我们通常将CPU处理器称为“主控CPU”。
选择最合适、与AI加速器完美匹配的主控CPU,并将其与AI加速器协同工作,可以构建出高效的AI加速系统,从而在工作负载性能以及总体拥有成本(TCO)之间实现理想的平衡。 这种平衡对于长期运营和成本控制至关重要。
在AI加速系统中,主控CPU通过提供高效的任务管理以及出色的预处理性能,来优化整体的处理性能和资源利用率。这对于确保AI模型训练流程中的数据能够得到高效供给至关重要,并可以维持AI处理器在理想状态下高效运行。主控CPU的性能直接影响着AI模型训练的速度和质量。
主控CPU作为AI加速系统的“中枢神经”,可以执行管理、优化、预处理、处理以及卸载等各种任务,从而显著提高系统的整体性能和能效。 这种全方位的支持对于AI系统的稳定性和高效性至关重要。
英特尔(Intel)的至强(Xeon)系列处理器,特别是最新一代的至强系列,无论是从各项AI基准测试的结果来看,还是从全球客户的实际部署经验来看,都可以说是构建强大且高效的AI加速系统之时,主控CPU的理想选择。至强系列经过多年的发展和优化,已经成为AI领域的重要力量。
NVIDIA最新、最强大的DGX B300系统,选择了Intel新款至强6776P作为主控CPU。值得注意的是,去年的MGX系统也曾使用至强6767。英特尔是NVIDIA在该领域中唯一的主控CPU合作伙伴,这体现了英特尔在AI芯片领域的重要地位及与NVIDIA的紧密合作关系。
那么,至强6为何如此强大呢?
我们可以从以下六个不同的维度来分析AI加速系统对主控CPU的需求,以及至强6系列是如何满足这些需求的。
1、AI加速系统需要非常强大且灵活的I/O性能。
至强6系列可以支持多达96条PCIe 5.0通道,与上一代产品相比增加了20%。在双路系统中,这一数字更是达到了192条。因此,它拥有超高的带宽和充足的通道数量,可以非常灵活地分配给不同的加速器及扩展卡。这种灵活的分配能力对于优化资源配置至关重要。
2、AI加速系统需要尽可能高的单线程性能。
至强6系列不仅配备了最多128个性能核心和504MB海量三级缓存,还具备强大的单线程性能,并且支持多种睿频加速技术。高性能核心和大容量缓存的设计,有效提高了数据处理效率。
例如,PCT(优先核心睿频)技术可以将少量核心加速到更高的频率,从而更好地服务于相应的GPU,最多支持8个核心。这种技术可以根据需要动态调整核心频率,提高资源利用率。
此外,还有SST技术,可以针对不同的核心配置分配不同的频率,使其拥有不同的性能表现。这种差异化的性能配置能够满足不同的应用需求。
3、AI加速系统需要尽可能高的内存容量与带宽。
至强6系列不仅支持更高频率的DDR5-6400内存,还率先独家支持MRDIMM内存,其频率可高达8800MHz,带宽进一步提升了30%。与上一代产品相比,领先幅度高达2.3倍。对于内存敏感性的AI负载来说,这尤其有利。高带宽和高容量的内存可以显著提升AI模型的训练速度。
此外,凭借多达12个内存通道,至强6系列能够提供无与伦比的内存带宽与容量,单路系统最高可支持3TB。海量的内存容量为处理大规模数据集提供了有力的支持。
NVIDIA DGX B300系统,选择了每通道两条DIMM(2LDPC)、5200MHz频率的方案,这主要是为了实现更大的内存容量。这种方案的选择充分考虑了AI应用对内存容量的需求。
另外,至强6系列还支持CXL(Compute Express Link)互连技术,从而保持CPU内存空间与AI加速器内存之间的一致性,实现高性能的资源共享,并降低整体的系统成本。CXL技术的应用有助于构建更加高效和经济的AI系统。
4、AI加速系统需要CPU做好数据预处理和卸载工作。
至强6系列支持AMX(高级矩阵扩展)指令,并新增对FP16数据格式的支持,这非常适合数据预处理和卸载工作。特别是随着MoE(Mixture of Experts)和MLP(Multilayer Perceptron)模型的出现和流行,在CPU上卸载部分工作变得越来越普遍。通过将部分任务卸载到CPU上,可以减轻GPU的负担,提高整体系统的效率。
5、AI加速系统需要强大的RAS。
RAS指的是可靠性(Reliability)、可用性(Availability)以及可维护性(Serviceability)。对于工作站、服务器以及数据中心硬件来说,这些都是必不可少的属性。至强6系列当然也少不了这些特性。有了RAS的保障,就可以大大减少大规模停机时间,从而避免高额的损失。可靠的硬件是保证AI系统稳定运行的基础。
RAS技术支持多项高级管理功能,包括遥测、平台监控、共享资源控制、实时固件更新等,并汇聚了平台合作伙伴、ISV(独立软件开发商)以及解决方案集成商的丰富专业知识与经验。这些功能和服务能够确保AI系统在各种复杂的环境下稳定运行。
6、AI加速系统需要灵活的形态。
至强6系列支持DC-MHS全球标准。无论是NVIDIA MGX还是DGX,双方都有着深入的合作,最新的合作成果就是DGX B300。双方共同打造了这款产品,并开展了大量的技术验证工作。这种紧密的合作关系有助于推动AI技术的持续发展。
在至强6系列家族中,有三款特殊型号是专门用于主控CPU的。
它们均基于P核(即性能核)的设计。目前的主控CPU都是如此设计的。未来是否会有E核(即能效核)设计,还要观察市场需求的变化。P核更注重性能,而E核更注重能效。未来的发展方向将取决于应用场景的需求。
其中,NVIDIA DGX B300采用的是至强6776P,并且是双路配置。 双路配置可以提供更高的计算能力,满足高端AI应用的需求。
至强6776P配置了64个核心(128线程),基准频率为2.3GHz,全核睿频为3.6GHz,最大睿频为3.9GHz。最值得关注的是,PCT睿频可以在最多8个核心上跑到4.6GHz,比传统SKU再次提高了多达700MHz。这种高度的睿频能力可以显著提高AI计算的性能。
此外,它还配备了336MB缓存,支持八通道DDR5-6400以及MRDIMM-8000内存,可提供88条PCIe 5.0通道,热设计功耗为350W。这种配置为高性能计算提供了强大的支持。
这里解释一下几种不同的睿频频率:
全核睿频(即All Core Turbo)指的是所有核心都处于活跃状态时,所能运行的最高频率。它适合虚拟机等场景,此时需要每一个核心都尽可能地运行在最高的性能上。全核睿频可以保证在多核负载下的高性能表现。
最大睿频(即Max Turbo)是指在传统SKU中能够达到的最高的睿频频率。它假设一半的核心处于活跃状态,而另一半核心处于休眠状态。在这种情况下,活跃的核心就能够运行在更高的频率上,也就是Max Turbo所对应的频率。最大睿频可以充分利用散热空间,提高部分核心的性能。
优先核心睿频(即Priority Core Tubo)指的是只开启更少量的核心(通常为2-8个),并使它们进一步加速到更高的频率,从而以更高的性能来满足AI加速系统中GPU、I/O等的苛刻需求,避免出现系统瓶颈。优先核心睿频是针对AI加速系统优化的一种重要手段。
至于使用哪些核心进行加速,可以在启动前使用BIOS设定,也可以在运行中通过SST-TF工具实时设定。这种灵活的调整方式可以根据实际需求优化性能。
更低端的至强6774P同样拥有64个核心。除了基准频率提高到了2.5GHz之外,与至强6776P最大的不同在于,它仅支持单路,但却可提供多达136个I/O通道,扩展能力更加强悍。更大的I/O通道数量可以支持更多的外设和扩展卡。
更高端的至强6962P拥有72个核心和144个线程,配备了432MB缓存,基准频率达到了2.7GHz,全核睿频和最大睿频分别达到了3.6GHz和3.9GHz,PCT睿频则为4.4GHz。
它还支持12通道内存,可提供96个PCIe通道,热设计功耗也来到了500W。这种顶级配置可以应对最苛刻的AI计算任务。
以上三款都是面向所有客户开放销售的产品,属于英特尔产品规划和路线图的一部分。未来不排除英特尔会根据市场的需求或者客户定制化的需求,推出更多的产品。多样化的产品选择可以满足不同客户的需求。
前面多次提到NVIDIA DGX B300 AI加速系统。上图展示了该系统的总体概览。DGX B300属于高端的DGX系列,专为AI训练等应用而生。DGX系列一直是AI计算领域的旗舰产品。
它配备了双路至强6776P主控CPU处理器,彼此通过UPI(Ultra Path Interconnect)高速总线互连。每路CPU都支持最多8个PCT睿频核心,客户在使用的时候可以根据自身的实际需要,定制选择8个、6个、4个或2个核心用于PCT睿频。 通过灵活的核心配置,可以优化系统的性能和能效。
每一路至强6776P之下,都通过两个NIC(网络接口控制器)高速网卡连接着四块AI GPU。整个系统总共拥有八块AI GPU,它们彼此之间通过NVLink高速总线互连。 Nvlink技术可以显著提高GPU之间的数据传输速度,从而加速AI模型的训练。
这套系统在选择主控CPU时采取了一种相对平衡的设计方案。但其性能依然是业界领先的,I/O性能和RAS性能等各方面也都非常均衡,无疑是一个理想的选择。 这种平衡的设计保证了系统的稳定性和可靠性。
当然,我们知道,NVIDIA的一些AI加速系统中已经普遍使用自行研发的Grace CPU处理器来搭配AI GPU加速器。Grace CPU是NVIDIA面向AI计算领域推出的一款高性能CPU。
事实上,目前市场上许多AI系统提供商都在尝试使用自研的主控CPU来与AI GPU协同工作。自研CPU可以更好地与自家GPU进行协同优化。
从英特尔的角度来看,其服务的方向是为客户提供更多的选择。而且作为开放的系统,英特尔始终秉持着开放的态度,致力于为主控CPU提供最佳的选择,从而满足客户多样化的需求。 开放的生态系统可以促进技术的创新和发展。
NVIDIA DGX B300 产品选择了英特尔至强6作为主控CPU。 而且这并非测试或者试验性的产品,而是一款商业化的成熟产品。这无疑是对英特尔至强产品在性能和兼容性方面的有力认可。 这也表明英特尔至强处理器在AI领域仍然具有强大的竞争力。





