这就是坑,别信。
2023年,某AI项目,因未预留GPU0作为备份,导致在训练过程中GPU1过载崩溃,项目延迟一周。
那天,我在机房里盯着服务器,眼看着gpu0的利用率一直稳定在30%左右,而gpu1却突突地飙升到了95%,整个屏幕上都是密密麻麻的运算数据。等等,还有个事,我突然想到,是不是上次升级系统时,不小心把gpu0的调度策略改成了静态分配,导致它现在只能处理固定的任务量呢?时间回到一年前,在杭州的那个研发中心,我第一次遇到这种情况时,还以为是因为服务器负载过高。地点是杭州,具体数字是gpu0 30%,gpu1 95%。这让我开始思考,是不是该调整一下资源分配策略了?