RTX 5090 离奇死机,悬赏千金寻解法

NVIDIA RTX 5090和RTX PRO 6000显卡存在一可复现的虚拟化重置漏洞,可能导致GPU无响应,需物理重启主机。该问题影响Blackwell芯片,GPU云服务商CloudRift和AI初创公司Tiny Corp均报告此Bug,并悬赏 $1000 寻求解决方案。用户反馈指出,此问题可能仅限于Blackwell系列。

Rain科技9月7日消息,据报道,NVIDIA的RTX 5090和RTX PRO 6000显卡最近被发现存在一个可复现的虚拟化重置漏洞。该漏洞会导致两款显卡在使用虚拟机(VM)并进行GPU虚拟化(如通过KVM和VFIO传递给虚拟机)后,在虚拟机关闭或GPU重新分配时,出现完全无响应的情况,直到主机系统进行物理重启才能恢复正常。这一问题目前已引发了广泛关注和讨论。

GPU云服务提供商CloudRift率先在生产环境中多个使用Blackwell芯片的系统上遇到了这一现象。在他们公开的详细分析报告中,详细描述了问题的发生过程,并悬赏1000美元,公开征集能够找到解决方案或根本原因的技术人员。这表明了该问题的复杂性和解决的紧迫性。

RTX 5090遇诡异Bug完全无响应!悬赏1000美元寻解决方案

根据CloudRift记录的日志分析,问题源于GPU在通过KVM和VFIO传递给虚拟机后,在虚拟机关闭或GPU被重新分配给其他任务时。此时,主机系统会尝试对GPU执行一个PCIe功能级重置(Function-Level Reset, FLR)操作。然而,与正常情况不同的是,执行FLR后,GPU未能恢复到正常工作状态,反而彻底停止响应。Linux内核的报告显示,“FLR后65535毫秒仍未就绪;放弃。”这表明GPU在重置后长时间仍处于无响应的僵死状态。

在这种状态下,显卡变得完全不可用,甚至连用于查询设备信息的`lspci`命令都会因为读取不到设备信息而报错,报告“未知头部类型7f”。CloudRift指出,唯一能够让受影响显卡恢复正常工作的方法,就是对整个服务器进行断电重启,这对于服务器类应用来说是无法接受的。这一描述凸显了该漏洞对实际业务运行可能造成的严重影响。

AI初创公司Tiny Corp在复现了CloudRift的发现后,直接质疑:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我们已经调查过,但找不到解决方案。”这种直接的质问,加上悬赏的行为,进一步强调了问题的棘手程度,甚至引发了对硬件本身是否存在设计缺陷的担忧。

在相关的技术社区讨论中,有许多拥有RTX 5090的家庭用户和其他早期采用者也报告了类似的遭遇。有用户反馈称,在关闭Windows虚拟机后,整个主机系统发生挂起,即便是进行了操作系统层面的重启,GPU也无法被重新初始化和识别,情况与CloudRift的描述高度一致。这表明该问题并非仅限于专业的服务器和GPU云服务场景,也存在于个人用户的使用过程中。

目前的反馈显示,尝试调整PCIe的ASPM(Active State Power Management)或ACS(Access Control Services)设置,都未能有效缓解此故障。至关重要的一点是,目前还没有用户报告称旧型号显卡(如RTX 4090)存在此类问题。这一点强烈暗示,该虚拟化重置漏洞可能仅限于NVIDIA新一代的Blackwell系列架构产品,这为NVIDIA未来排查和修复问题提供了大致的方向。

RTX 5090遇诡异Bug完全无响应!悬赏1000美元寻解决方案

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 9月 7日 下午11:00
下一篇 2025年 9月 8日 上午1:29

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!