國網vcs v100

最近要跑東西,用到沒有更新的硬體,v100也不知道支不支援
用docker最新目前25.11,不能用
看手冊,最多支援24.09
但是僅有pytorch
所以全部所需的要重裝
但是離開docker,會清空
所以要自製docker image
以24.09為基礎,將所需都灌入docker
訓練時,OK
推論時,要注意記憶體破碎化的問題
還要改程式,不然一樣會OOM
如果不懂,參照gpt流程
如果改用2張
要注意指令有不一樣