过去做企业级IT,如今搞企业级AI,都有点像跑船打渔,船越大就越不能只图快,更得求稳,否则船一翻,载得渔获越多损失就越重。
别等问题发生时我们才警觉:不能只将目光聚焦在GPU或各种AI加速器的算力能否充分发挥上。没有一个稳定可靠的运行环境,这种发挥就不能持久,而不持久比不充分更亏本儿。
至强®6 处理器作为机头或主控,它的“三高”能力(高可靠性、高可用性、高可维护性,RAS)就能接过保障整体系统稳定运行的重任,为GPU创造一个“心无旁骛”、“全力输出”的环境,致力于实现整个系统1+1>2的效能倍增。
致力于告别“数据污染”,为GPU扫清“静默错误雷区”
在动辄千卡万卡的AI集群中,一些微小的静默数据错误就像潜伏的“地雷”,平时难以察觉,一旦“引爆”就可能污染训练结果、干扰模型收敛,以及导致错误的推理结果。
担当机头或主控系统核心的至强®6,它利用硬件故障压测与复检工具套件 (SHC & DCDiag),锁步模式 (Lock Step Mode) 和故障扫描巡检(In-Field-Scan)等SDE检出功能,对GPU前行的“道路“进行细致排查,提前揪出并排除这些“隐形错误”。这确保了机头或主控CPU交付给GPU的计算任务是更为纯净或可靠的,致力于让GPU的每一次运算都建立在更坚实可信的基础之上。

可用性是AI集群“持久连续运行”的关键,至强®6在这方面承袭了英特尔在至强产品线上长达6代的技术迭代,如:
1、内存纠错与排障:通过SDDC、ADDDC等技术,纠正单颗粒内存错误,并自适应修正多颗粒错误,为GPU提供稳定的数据通路。
2、服务容错:MCA Recovery机制确保服务器在遇到非致命错误时可以“带病运行”,避免GPU工作流无故中断,到至强®6这一代,MCA Recovery还实现了更多恢复手段。
3、PCIe稳健器:eDPC功能保障了GPU与系统之间高速数据链路的稳定,这对于依赖海量数据交换的AI任务至关重要。

“首席技术支持” 为AI集群
致力于构建分钟级故障诊断与恢复体系
作为AI集群7 x 24小时待命的“首席技术支持”,至强®6 处理器配备RAS Offload与增强的内存故障EDAC driver,用来丰富故障上报信息,同时规避业务中断影响与性能抖动。

更重要的是,作为AI集群“压舱石”,至强®6能通过上述工具链快速适配不同品牌GPU或AI加速器,辅助诊断、迅速定位并协助解决它们的故障,更大程度缩短整个系统的中断时间,让它们能“物尽其用”。想解锁至强®6更强RAS能力让AI计算更可靠的秘笈?请访问英特尔官网,解锁更多RAS潜能。
编辑:张芬
相关热词搜索:
上一篇:战略升级!星程智能新总部启幕 剑指千行万业智能化转型