IT之家 10 月 2 日消息,郭明錤昨日(10 月 1 日)發(fā)布市場投資簡報,報道稱在沒有客戶定制要求的情況下,英偉達不再提供雙柜版 GB200(2 個 NVL36),僅提供單柜版本 GB200 NVL72,而單柜版 NVL36 仍維持原開發(fā)和出貨計劃。
IT之家附上郭明錤簡報信息如下:
結(jié)論:
此事不會影響 AI 與 Nvidia 的長期正向趨勢,但短期可能引發(fā)部分市場參與者對 Nvidia 與供應(yīng)鏈執(zhí)行力的質(zhì)疑。
Nvidia 近期頻繁修改 AI 服務(wù)器產(chǎn)品藍圖,我認為這是 Nvidia 在資源有限下,想在供應(yīng)鏈執(zhí)行力、競爭優(yōu)勢與客戶需求間取得更好的平衡點(停止 NVL36*2 開發(fā)僅是一個例子) 。這是好事,代表 Nvidia 更務(wù)實面對產(chǎn)品規(guī)劃,但在改變過程可能會讓部分市場參與者對供應(yīng)鏈亂象感到困惑。
因當前 Blackwell 伺服器的 2025 年產(chǎn)品出貨組合能見度低 (數(shù)月前市場普遍認為只會有 NVL36、NVL72 與 NVL36*2),部分供應(yīng)商如組裝、散熱等 2025 年展望將受到較大影響。
兩個 72GPU 版本的比較:選擇 NVL72 并取消 NVL36*2 的原因
開發(fā)資源有限。原本的規(guī)劃是,GB200 有三個案子(NVL36、NVL72、NVL36*2)同時開發(fā)中。預(yù)計自 11 月中旬開始的開發(fā)版本 (Development drop:DevDrop) 就會收斂至 NVL72 與 NVL36*2 (因 NVL36「理論上」準備進入量產(chǎn)階段),并在 2025 年 3 月中旬前完成兩者最后的品質(zhì)驗證 (Quality assurance:QA)。但在 NVL36 開發(fā)仍有不確定性下,更遑論同時開發(fā)兩個 72 GPU 版本 (NVL72 與 NVL36*2)。
NVL72 節(jié)省資料中心空間。NVL72 若能妥善解決 Sidecar 的散熱設(shè)計挑戰(zhàn),會比 NVL36*2 少一個機柜,提升資料中心空間效率。
NVL72 的推理效率較佳。受益于軟件可平行化設(shè)計 (Parallelizable design),NVL72 與 NVL36*2 在 AI LLM 訓練結(jié)果差異不大。但在非或不易平行化設(shè)計的推理過程中 (如自回歸模型),NVL72 的表現(xiàn)較容易優(yōu)于 NVL36*2。
主要客戶偏好。如微軟就較偏好 NVL72,而非 NVL36*2。
兌現(xiàn)公開的承諾。 Nvidia 在公開場合宣傳重點始終都是單柜版 NVL72,為兌現(xiàn)公開承諾,資源有限下,NVL72 開發(fā)順位較 NVL36*2 高。
NVL72 開發(fā)面對前所未有的技術(shù)挑戰(zhàn),目前量產(chǎn)時程能見度仍低
NVL72 開發(fā)最大挑戰(zhàn)主要來自 TDP (Thermal design point) 要求為 132kW,這是有史以來功耗最高的伺服器,Nvidia 與供應(yīng)鏈需要更多時間解決前所未有的技術(shù)問題。
需注意 TDP 是指持續(xù)運行的平均功耗,而若設(shè)計不當導致瞬間最大功耗 (Nvidia 稱為 EDP (Electrical design point)) 高于 TDP,則可能要兩部以上的 Sidecar,若是如此,則不僅提高散熱設(shè)計復(fù)雜度與量產(chǎn)難度,亦失去 NVL72 節(jié)省資料中心空間的優(yōu)勢。
Sidecar 另一設(shè)計挑戰(zhàn)為需把 Approaching temp 穩(wěn)定得控制在 5–10°C 內(nèi),若放寬標準則可能會影響系統(tǒng)穩(wěn)定度。
需注意的是,上述提到的高功耗挑戰(zhàn),牽涉到的不僅是 Sidecar,而是所有的零組件與系統(tǒng)設(shè)計
我最新供應(yīng)鏈調(diào)查指出,NVL72 量產(chǎn)時程可能須至 2H25 后 (vs. Nvidia 的樂觀目標為 1H25)。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。