02025年12月10日,英伟达发布全新可视化GPU集群监控方案,旨在帮助云服务合作伙伴精准计算GPU正常运行时间,提升资源管理效率。

该方案由用户自愿选择并自行安装,通过开源客户端软件代理实现实时监控,可追踪功耗峰值、集群利用率、内存带宽及互联状态,并具备错误检测与热控制预警功能,有效避免过热降频和组件老化风险。

英伟达特别强调,其GPU产品不包含任何硬件追踪技术、远程终止开关或后门,充分保障用户安全与隐私。 此外,公司计划将客户端软件代理开源,以提供更高的透明度和可审计性。该软件仅提供只读遥测数据,无法修改GPU配置或底层运作方式,由客户完全掌控并支持按需定制。