网线瓶颈:数据中心面临的挑战

微软正研究利用Micro LED技术(MOSAIC)解决算力中心数据传输瓶颈。与传统铜缆和光纤相比,MOSAIC采用Micro LED像素作为光源,通过“宽而慢”的传输模式,在减小模块体积、降低功耗和故障率方面优势明显,有望为AI算力竞赛提供更优化的通信解决方案。

您是否觉得,如今在电视上才会见到的 Micro LED 技术,竟然还能用于制作网线,并实现数据传输?

事情是这样的,最近我(作者)在网上看到一则新闻,声称微软正致力于通过 Micro LED 光互联技术(MOSAIC),来解决算力中心数据传输“卡脖子”的问题。

显卡还没跑满 数据中心先被“网线”卡脖子了

虽然听起来有些抽象,但核心在于,负责数据处理的算力中心,却因为自身的数据传输“网线”不够用而受到了限制。

您可能会感到疑惑,现在在网上购买一根超六类万兆(10Gbps)的网线不过十几块钱,为何会不够用呢?

显卡还没跑满 数据中心先被“网线”卡脖子了

实际上,这与数据中心所使用的网线,在连接速率上存在着巨大的差距。

我们日常家庭使用的网线,最大传输速率通常在 1000 Mbps – 2500 Mbps(即 1 Gbps – 2.5 Gbps)。虽然近年来部分地区推广的“万兆网络”可支持 10 Gbps 的网线,但这几乎已是民用网线的速率上限。

相比之下,数据中心的端口交换速率,100 Gbps 早已是主流,而面向 AI 算力中心的交换机,更是以 400 Gbps 起步。

显卡还没跑满 数据中心先被“网线”卡脖子了

随着 AI 大模型规模的不断增大,在进行训练和推理时,服务器之间以及 GPU 之间的海量数据交换,对带宽的需求也随之急剧攀升。

为了满足如此庞大的数据传输需求,目前数据中心普遍使用的铜缆和光纤,已显现出“力不从心”的迹象。

我们先来看铜缆。这种材料的特性决定了其传输速率和有效传输距离难以兼顾。为了达到数据中心要求的高速率,高速铜缆的长度通常被限制在 1-2 米之内,这也是为何机柜内部的 GPU 之间多采用铜缆连接。

随着传输速率的增加,铜缆的有效传输距离会逐渐缩短(a),而光纤的功耗则会逐渐增加(b)。

显卡还没跑满 数据中心先被“网线”卡脖子了

再来看光纤。虽然光纤能够实现高速、远距离传输,甚至可以跨越机柜进行连接,但其涉及复杂的光电转换过程,需要消耗大量电力,并且对温度敏感,容易老化。在高温的数据机房环境中,故障率显著升高。

微软的研究论文指出,如果完全采用光纤互联,英伟达 GB200 NVL72 机柜的功耗将可能增加 17%,而超大规模的 GPU 集群,每 6-12 小时就可能发生一次链路故障。

显卡还没跑满 数据中心先被“网线”卡脖子了

综合考虑这些因素,英伟达 GB200 NVL72 最终选择了铜缆连接方案。然而,这导致了在该机柜中,72 个 GPU 只能被集成在单个机架内,这无疑给整个机柜的供电和散热带来了巨大的压力。

此外,高集成度的设计也增加了维护的难度。一旦某个 GPU 或传输链路出现问题,整个机柜的运行都可能受到影响。

通过以上分析,我们可以清晰地看到,传统的铜缆和光纤通信技术,已难以同时满足数据中心对高带宽、低功耗以及长距离连接的需求。

显卡还没跑满 数据中心先被“网线”卡脖子了

而 MicroLED 光通信的出现,正是为了应对这一挑战。

微软提出的 MOSAIC 技术,其核心在于利用 MicroLED 像素作为光源。您可以将发光的 MicroLED 像素阵列想象成一个个微型的显示器。

由于 MicroLED 像素能够独立发光,每个像素便构成了一个独立的数据传输光通道。

显卡还没跑满 数据中心先被“网线”卡脖子了

发射端通过控制像素的亮灭来编码数据(亮代表 1,灭代表 0),接收端则通过记录每个像素的亮度变化来还原接收到的二进制数据,从而实现信息的光信号传输。

与传统光纤通信原理相似,但 MOSAIC 的传输模式呈现出“宽而慢”的特点,与光纤的“窄带宽、高速度”形成对比。

显卡还没跑满 数据中心先被“网线”卡脖子了

首先,关于“慢”的方面。MOSAIC 的设计理念是,无需像传统光纤通信那样将单通道提升至 50 Gbps 甚至 100 Gbps 的超高速率,每个 MicroLED 像素仅需支持 2 Gbps 的“低速率”。

然而,正是通过这种“慢”的单通道速率,MOSAIC 实现了整体的高速传输,这得益于其“宽”的特性。

传统的 800 Gbps 带宽通常需要 8 个 100 Gbps 的高速通道来实现。而 MOSAIC 通过将 MicroLED 阵列设计成包含 400 个独立像素点,即便单个通道速率只有 2 Gbps,也能达到 800 Gbps 的总带宽。

显卡还没跑满 数据中心先被“网线”卡脖子了

但您不必担心,MicroLED 光通信的模块体积和功耗并不会因此而“失控”。

MOSAIC 之所以能够通过规模化像素实现高带宽,一方面是因为 MicroLED 像素本身的尺寸极小(几微米到几十微米)。即便构成 400 个像素点的阵列,其核心发光芯片的体积也小于 1 mm?。而传统 800 Gbps 级别光模块的核心光源/调制器体积可能达到十几甚至几十 mm?。

这就像是将一粒小米与一粒大米放在一起比较大小。

在相同的像素间距下,Micro LED 拥有更小的像素尺寸和更紧密的排列。

显卡还没跑满 数据中心先被“网线”卡脖子了

即便是将 MicroLED 的连接速率提升至 1.6 Tbps 甚至 3.2 Tbps,也就是当前数据中心主流传输速率的 4 倍,整个 MicroLED 光模块的体积依然不会超过传统光纤光模块。

另一方面,MOSAIC 所使用的传输线缆也颇具特色,借鉴了医疗内窥镜中使用的“多芯成像光纤”技术。这意味着,即使 MicroLED 光通道数量大幅增加,线缆的体积也不会随之增大。

这种多芯成像光纤内部包含数以万计的细小纤芯,其数量足以满足 MicroLED 数百个光通道的连接需求。

MicroLED 多芯成像光纤,可支持数百个光通道。

显卡还没跑满 数据中心先被“网线”卡脖子了

以 800 Gbps 带宽为例,传统光纤方案需要将 16 根单模光纤(8 根发射 + 8 根接收)集成在一起。而“多芯成像光纤”则能通过一根线缆实现高带宽传输。

此外,这类多芯成像光纤的有效传输距离可达 50 米,远超铜缆连接的极限。

再加上 MicroLED 结构简单,用于控制像素亮灭的电流开关也能做得更精简,从而省去了传统光模块中许多高功耗的电路。

根据微软的数据,在实现相同带宽的情况下,MOSAIC 的功耗相比传统光纤互联,最多可降低 68%,而故障率更是能降至原来的 1/100。

可以说,这项技术为数据中心提供了第三种平衡的解决方案,不再需要在“笨重的铜缆”和“高功耗的光纤模块”之间纠结,而是能够在功耗、距离和带宽之间找到一个更优的折衷点。

数据中心常用的连接方案:交换机之间采用光纤连接,机柜内部采用铜缆连接。

显卡还没跑满 数据中心先被“网线”卡脖子了

不过,目前 MicroLED 光通信仍处于技术验证阶段,台积电、Avicena、兆驰等厂商也正在积极进行原型机研发和产业布局,大规模商业化应用尚未实现。

尽管如此,这项技术的发展前景备受看好。尤其考虑到国外电力供应紧张这一现实问题,MicroLED 光通信在降低功耗方面的优势尤为突出。

更重要的是,它有望解决我们开头提到的,算力中心日益突出的通信效率“卡脖子”问题。换句话说,通信效率的革命,或许能够弥补算力方面的不足。

以华为的 384 超节点为例,虽然单个昇腾AI处理器的性能并非顶尖,但通过 384 颗 NPU 互联形成算力集群,其整体性能足以与英伟达的 GB200 NVL72 相媲美。

因此,我认为,通过新的光通信协议实现“弯道超车”,打造更快、更省电、更可靠的数据传输,可能将成为 AI 竞赛和算力“游戏”下半场的重要看点。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 2025年 12月 16日 下午11:03
下一篇 2025年 12月 17日 上午1:51

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!