Intel至强6：AI幕后大佬，NVIDIA唯一伙伴

随着生成式AI和预测式AI技术的快速发展，我们正经历一波又一波的创新浪潮。这导致工作负载的类型日益多样化，复杂度也随之增加，进而对AI服务器的性能和能效提出了更高的要求。

每当谈及AI服务器、AI工作站以及AI一体机等设备时，许多人的第一反应便是那些拥有强大算力的AI GPU加速器。

GPU加速器在AI系统中扮演着主角的角色，肩负着最为繁重的计算使命。然而，我们不能忽略的是，仅凭GPU加速器是无法独立支撑起整个AI系统的运行的。正如任何计算系统都需要CPU处理器坐镇指挥一样。

CPU处理器作为整个计算系统的核心和控制中心，即使在AI系统中也发挥着不可替代的关键作用，只不过它一直以来都相对低调。

如果将GPU加速器比作AI系统中在前台展示耀眼技术的明星，那么CPU处理器就是隐藏在幕后，默默奉献的总管家，负责协调整个系统的高效运行，特别是确保GPU加速器的各项需求能够得到充分满足，使其强大的算力得以高效释放。在AI加速系统中，CPU扮演着至关重要的角色。

因此，在这样的应用场景下，我们通常将CPU处理器称为“主控CPU”。

选择最合适、与AI加速器完美匹配的主控CPU，并将其与AI加速器协同工作，可以构建出高效的AI加速系统，从而在工作负载性能以及总体拥有成本（TCO）之间实现理想的平衡。这种平衡对于长期运营和成本控制至关重要。

在AI加速系统中，主控CPU通过提供高效的任务管理以及出色的预处理性能，来优化整体的处理性能和资源利用率。这对于确保AI模型训练流程中的数据能够得到高效供给至关重要，并可以维持AI处理器在理想状态下高效运行。主控CPU的性能直接影响着AI模型训练的速度和质量。

主控CPU作为AI加速系统的“中枢神经”，可以执行管理、优化、预处理、处理以及卸载等各种任务，从而显著提高系统的整体性能和能效。 这种全方位的支持对于AI系统的稳定性和高效性至关重要。

英特尔（Intel）的至强（Xeon）系列处理器，特别是最新一代的至强系列，无论是从各项AI基准测试的结果来看，还是从全球客户的实际部署经验来看，都可以说是构建强大且高效的AI加速系统之时，主控CPU的理想选择。至强系列经过多年的发展和优化，已经成为AI领域的重要力量。

NVIDIA最新、最强大的DGX B300系统，选择了Intel新款至强6776P作为主控CPU。值得注意的是，去年的MGX系统也曾使用至强6767。英特尔是NVIDIA在该领域中唯一的主控CPU合作伙伴，这体现了英特尔在AI芯片领域的重要地位及与NVIDIA的紧密合作关系。

那么，至强6为何如此强大呢？

我们可以从以下六个不同的维度来分析AI加速系统对主控CPU的需求，以及至强6系列是如何满足这些需求的。

1、AI加速系统需要非常强大且灵活的I/O性能。

至强6系列可以支持多达96条PCIe 5.0通道，与上一代产品相比增加了20%。在双路系统中，这一数字更是达到了192条。因此，它拥有超高的带宽和充足的通道数量，可以非常灵活地分配给不同的加速器及扩展卡。这种灵活的分配能力对于优化资源配置至关重要。

2、AI加速系统需要尽可能高的单线程性能。

至强6系列不仅配备了最多128个性能核心和504MB海量三级缓存，还具备强大的单线程性能，并且支持多种睿频加速技术。高性能核心和大容量缓存的设计，有效提高了数据处理效率。

例如，PCT（优先核心睿频）技术可以将少量核心加速到更高的频率，从而更好地服务于相应的GPU，最多支持8个核心。这种技术可以根据需要动态调整核心频率，提高资源利用率。

此外，还有SST技术，可以针对不同的核心配置分配不同的频率，使其拥有不同的性能表现。这种差异化的性能配置能够满足不同的应用需求。

3、AI加速系统需要尽可能高的内存容量与带宽。

至强6系列不仅支持更高频率的DDR5-6400内存，还率先独家支持MRDIMM内存，其频率可高达8800MHz，带宽进一步提升了30%。与上一代产品相比，领先幅度高达2.3倍。对于内存敏感性的AI负载来说，这尤其有利。高带宽和高容量的内存可以显著提升AI模型的训练速度。

此外，凭借多达12个内存通道，至强6系列能够提供无与伦比的内存带宽与容量，单路系统最高可支持3TB。海量的内存容量为处理大规模数据集提供了有力的支持。

NVIDIA DGX B300系统，选择了每通道两条DIMM（2LDPC）、5200MHz频率的方案，这主要是为了实现更大的内存容量。这种方案的选择充分考虑了AI应用对内存容量的需求。

另外，至强6系列还支持CXL（Compute Express Link）互连技术，从而保持CPU内存空间与AI加速器内存之间的一致性，实现高性能的资源共享，并降低整体的系统成本。CXL技术的应用有助于构建更加高效和经济的AI系统。

4、AI加速系统需要CPU做好数据预处理和卸载工作。

至强6系列支持AMX（高级矩阵扩展）指令，并新增对FP16数据格式的支持，这非常适合数据预处理和卸载工作。特别是随着MoE（Mixture of Experts）和MLP（Multilayer Perceptron）模型的出现和流行，在CPU上卸载部分工作变得越来越普遍。通过将部分任务卸载到CPU上，可以减轻GPU的负担，提高整体系统的效率。

5、AI加速系统需要强大的RAS。

RAS指的是可靠性（Reliability）、可用性（Availability）以及可维护性（Serviceability）。对于工作站、服务器以及数据中心硬件来说，这些都是必不可少的属性。至强6系列当然也少不了这些特性。有了RAS的保障，就可以大大减少大规模停机时间，从而避免高额的损失。可靠的硬件是保证AI系统稳定运行的基础。

RAS技术支持多项高级管理功能，包括遥测、平台监控、共享资源控制、实时固件更新等，并汇聚了平台合作伙伴、ISV（独立软件开发商）以及解决方案集成商的丰富专业知识与经验。这些功能和服务能够确保AI系统在各种复杂的环境下稳定运行。

6、AI加速系统需要灵活的形态。

至强6系列支持DC-MHS全球标准。无论是NVIDIA MGX还是DGX，双方都有着深入的合作，最新的合作成果就是DGX B300。双方共同打造了这款产品，并开展了大量的技术验证工作。这种紧密的合作关系有助于推动AI技术的持续发展。

在至强6系列家族中，有三款特殊型号是专门用于主控CPU的。

它们均基于P核（即性能核）的设计。目前的主控CPU都是如此设计的。未来是否会有E核（即能效核）设计，还要观察市场需求的变化。P核更注重性能，而E核更注重能效。未来的发展方向将取决于应用场景的需求。

其中，NVIDIA DGX B300采用的是至强6776P，并且是双路配置。 双路配置可以提供更高的计算能力，满足高端AI应用的需求。

至强6776P配置了64个核心（128线程），基准频率为2.3GHz，全核睿频为3.6GHz，最大睿频为3.9GHz。最值得关注的是，PCT睿频可以在最多8个核心上跑到4.6GHz，比传统SKU再次提高了多达700MHz。这种高度的睿频能力可以显著提高AI计算的性能。

此外，它还配备了336MB缓存，支持八通道DDR5-6400以及MRDIMM-8000内存，可提供88条PCIe 5.0通道，热设计功耗为350W。这种配置为高性能计算提供了强大的支持。

这里解释一下几种不同的睿频频率：

全核睿频（即All Core Turbo）指的是所有核心都处于活跃状态时，所能运行的最高频率。它适合虚拟机等场景，此时需要每一个核心都尽可能地运行在最高的性能上。全核睿频可以保证在多核负载下的高性能表现。

最大睿频（即Max Turbo）是指在传统SKU中能够达到的最高的睿频频率。它假设一半的核心处于活跃状态，而另一半核心处于休眠状态。在这种情况下，活跃的核心就能够运行在更高的频率上，也就是Max Turbo所对应的频率。最大睿频可以充分利用散热空间，提高部分核心的性能。

优先核心睿频（即Priority Core Tubo）指的是只开启更少量的核心（通常为2-8个），并使它们进一步加速到更高的频率，从而以更高的性能来满足AI加速系统中GPU、I/O等的苛刻需求，避免出现系统瓶颈。优先核心睿频是针对AI加速系统优化的一种重要手段。

至于使用哪些核心进行加速，可以在启动前使用BIOS设定，也可以在运行中通过SST-TF工具实时设定。这种灵活的调整方式可以根据实际需求优化性能。

更低端的至强6774P同样拥有64个核心。除了基准频率提高到了2.5GHz之外，与至强6776P最大的不同在于，它仅支持单路，但却可提供多达136个I/O通道，扩展能力更加强悍。更大的I/O通道数量可以支持更多的外设和扩展卡。

更高端的至强6962P拥有72个核心和144个线程，配备了432MB缓存，基准频率达到了2.7GHz，全核睿频和最大睿频分别达到了3.6GHz和3.9GHz，PCT睿频则为4.4GHz。

它还支持12通道内存，可提供96个PCIe通道，热设计功耗也来到了500W。这种顶级配置可以应对最苛刻的AI计算任务。

以上三款都是面向所有客户开放销售的产品，属于英特尔产品规划和路线图的一部分。未来不排除英特尔会根据市场的需求或者客户定制化的需求，推出更多的产品。多样化的产品选择可以满足不同客户的需求。

前面多次提到NVIDIA DGX B300 AI加速系统。上图展示了该系统的总体概览。DGX B300属于高端的DGX系列，专为AI训练等应用而生。DGX系列一直是AI计算领域的旗舰产品。

它配备了双路至强6776P主控CPU处理器，彼此通过UPI（Ultra Path Interconnect）高速总线互连。每路CPU都支持最多8个PCT睿频核心，客户在使用的时候可以根据自身的实际需要，定制选择8个、6个、4个或2个核心用于PCT睿频。通过灵活的核心配置，可以优化系统的性能和能效。

每一路至强6776P之下，都通过两个NIC（网络接口控制器）高速网卡连接着四块AI GPU。整个系统总共拥有八块AI GPU，它们彼此之间通过NVLink高速总线互连。 Nvlink技术可以显著提高GPU之间的数据传输速度，从而加速AI模型的训练。

这套系统在选择主控CPU时采取了一种相对平衡的设计方案。但其性能依然是业界领先的，I/O性能和RAS性能等各方面也都非常均衡，无疑是一个理想的选择。这种平衡的设计保证了系统的稳定性和可靠性。

当然，我们知道，NVIDIA的一些AI加速系统中已经普遍使用自行研发的Grace CPU处理器来搭配AI GPU加速器。Grace CPU是NVIDIA面向AI计算领域推出的一款高性能CPU。

事实上，目前市场上许多AI系统提供商都在尝试使用自研的主控CPU来与AI GPU协同工作。自研CPU可以更好地与自家GPU进行协同优化。

从英特尔的角度来看，其服务的方向是为客户提供更多的选择。而且作为开放的系统，英特尔始终秉持着开放的态度，致力于为主控CPU提供最佳的选择，从而满足客户多样化的需求。开放的生态系统可以促进技术的创新和发展。

NVIDIA DGX B300 产品选择了英特尔至强6作为主控CPU。而且这并非测试或者试验性的产品，而是一款商业化的成熟产品。这无疑是对英特尔至强产品在性能和兼容性方面的有力认可。这也表明英特尔至强处理器在AI领域仍然具有强大的竞争力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Intel至强6：AI幕后大佬，NVIDIA唯一伙伴

相关推荐

发表回复