首頁 > IT資訊>業(yè)界

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

芯東西 2024/3/25 19:02:02 責(zé)編：夢澤

評論：

Blackwell 架構(gòu)大揭秘！對話英偉達(dá)技術(shù)高管 + 22 頁技術(shù)報告解讀。

作者 | ZeR0

編輯 | 漠影

當(dāng)今全世界身價最高的兩位華人，一位賣鏟，一位賣水。

第一名是英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛，靠給 AI 淘金者們賣 GPU，把英偉達(dá)推上全球市值第三的寶座；另一位是農(nóng)夫山泉創(chuàng)始人、董事長兼總經(jīng)理鐘睒睒，憑“大自然的搬運工”笑傲飲用水江湖。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

▲ 在最新彭博億萬富豪榜中，黃仁勛是第 17 名，鐘睒睒是第 23 名

當(dāng)前，英偉達(dá)市值已經(jīng)穩(wěn)坐 2 萬億美元大關(guān)，與蘋果的市值差距縮小到 0.3 萬億美元。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

▲ 全球市值 TOP10 中，英偉達(dá)過去 30 天股價漲幅最大（圖源：Companies Market Cap）

在本周英偉達(dá) GTC 大會上，黃仁勛一本正經(jīng)地說：“我們可以附帶著賣熱水?！?/p>

這可不是句玩笑話，黃仁勛是有數(shù)據(jù)依據(jù)的：英偉達(dá) DGX 新機(jī)的液冷散熱，液體入口溫度是 25℃，接近室溫；出口溫度升高到 45℃，接近按摩浴缸的水溫，流速是 2L / s。

當(dāng)然了，比起賣水，GPU 算力才是英偉達(dá)手里的印鈔機(jī)。

人稱“皮衣刀客”的黃仁勛，一貫具有極強(qiáng)的危機(jī)感和風(fēng)險意識，永遠(yuǎn)在提前為未來鋪路。再加上芯片行業(yè)是一個高風(fēng)險高成本低容錯的行業(yè)，一步走錯，可能就會跌落神壇，滿盤皆輸。所以在 AI 算力需求空前爆發(fā)、一眾強(qiáng)敵虎視眈眈的關(guān)鍵時刻，英偉達(dá)不敢在新品上有絲毫懈怠，必然會在短期內(nèi)打出最大爆發(fā)，讓對手們望塵莫及。

當(dāng)競爭對手們還在以追趕英偉達(dá)旗艦 GPU 為目標(biāo)時，黃仁勛已經(jīng)站在 next Level，捕捉到數(shù)據(jù)中心客戶需求的痛點 —— 單芯不頂事，真正頂事的是解決系統(tǒng)級性能和能效提升的挑戰(zhàn)。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

拿單個旗艦 GPU 比，英偉達(dá)的芯片確實配得上“核彈”稱號，性能猛，功耗也高。但黃仁勛厲害在早就跳出芯片本身，不斷向數(shù)據(jù)中心客戶灌輸“買得越多省得越多”的理念，簡而言之買英偉達(dá)的 AI 系統(tǒng)方案比其他方案更快更省錢。

從 Blackwell 架構(gòu)設(shè)計到 AI 基礎(chǔ)設(shè)施的技術(shù)布局，都能反映黃仁勛對未來市場需求和行業(yè)趨勢的前瞻性判斷：

1、摩爾定律帶動性能提升越來越捉襟見肘，單 die 面積和晶體管快到極限，后續(xù)芯片迭代必須包括高帶寬內(nèi)存、Chiplet 先進(jìn)封裝、片內(nèi)互聯(lián)等技術(shù)的創(chuàng)新組合。再加上片外互連等高性能通信的優(yōu)化，共同構(gòu)成了英偉達(dá)打造出專為萬億參數(shù)級生成式 AI 設(shè)計的系統(tǒng)的基礎(chǔ)。

2、未來，數(shù)據(jù)中心將被視為 AI 工廠，在整個生命周期里，AI 工廠的目標(biāo)是產(chǎn)生收益。不同于消費級市場單賣顯卡，數(shù)據(jù)中心市場是個系統(tǒng)級生意，單芯片峰值性能參考價值不大，把很多 GPU 組合成一個“巨型 GPU”，使其在完成同等計算任務(wù)時耗費更少的卡、時間和電力，對客戶才能帶來更大的吸引力。

3、AI 模型的規(guī)模和數(shù)據(jù)量將持續(xù)增長：未來會用多模態(tài)數(shù)據(jù)來訓(xùn)練更大的模型；世界模型將大行其道，學(xué)習(xí)掌握現(xiàn)實世界的物理規(guī)律和常識；借助合成數(shù)據(jù)生成技術(shù)，AI 甚至能模仿人類的學(xué)習(xí)方式，聯(lián)想、思考、彼此相互訓(xùn)練。英偉達(dá)的目標(biāo)是不斷降低與計算相關(guān)的成本和能耗。

4、高性能推理或生成將至關(guān)重要。云端運行的英偉達(dá) GPU 可能有一半時間都被用于 token 生成，運行大量的生成式 AI 任務(wù)。這既需要提高吞吐量，以降低服務(wù)成本，又要提高交互速度以提高用戶體驗，一個 GPU 難以勝任，因此必須找到一種能在許多 GPU 上并行處理模型工作的方法。

01.最強(qiáng) AI 芯片規(guī)格詳解：最大功耗 2700W，CUDA 配置成謎

本周二，英偉達(dá)發(fā)布新一代 Blackwell GPU 架構(gòu)，不僅刻意弱化了單芯片的存在感，而且沒有明確 GPU 的代號，而是隱晦地稱作“Blackwell GPU”。這使得被公認(rèn)遙遙領(lǐng)先的 Blackwell 架構(gòu)多少籠上了一抹神秘色彩。

在 GTC 大會現(xiàn)場，英偉達(dá)副總裁 Ian Buck 和高級副總裁 Jonah Alben 向智東西 & 芯東西等全球媒體進(jìn)一步分享了關(guān)于 Blackwell 架構(gòu)設(shè)計的背后思考。結(jié)合 22 頁英偉達(dá) Blackwell 架構(gòu)技術(shù)簡報，關(guān)于 GB200 超級芯片、HGX B200 / B100、DGX 超級計算機(jī)等的配置細(xì)節(jié)被進(jìn)一步披露。

根據(jù)現(xiàn)有信息，全新 Blackwell GPU 沒有采用最先進(jìn)的 3nm 制程工藝，而是繼續(xù)沿用 4nm 的定制增強(qiáng)版工藝臺積電 4NP，已知的芯片款式有 3 類 ——B100、B200、GB200 超級芯片。

B100 不是新發(fā)布的主角，僅在 HGX B100 板卡中被提及。B200 是重頭戲，GB200 又進(jìn)一步把 B200 和 1 顆 72 核 Grace CPU 拼在一起。

B200 有 2080 億顆晶體管，超過 H100（800 億顆晶體管）數(shù)量的兩倍。英偉達(dá)沒透露單個 Blackwell GPU die 的具體大小，只說是在 reticle 大小尺寸限制內(nèi)。上一代單 die 面積為 814mm2。由于不知道具體數(shù)字，不好計算 B200 在單位面積性能上的改進(jìn)幅度。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

英偉達(dá)通過 NV-HBI 高帶寬接口，以 10TB/s 雙向帶寬將兩個 GPU die 互聯(lián)封裝，讓 B200 能像單芯片一樣運行，不會因為通信損耗而損失性能，沒有內(nèi)存局部性問題，也沒有緩存問題，能支持更高的 L2 緩存帶寬。但英偉達(dá)并沒有透露它具體采用了怎樣的芯片封裝策略。

前代 GH200 超級芯片是把 1 個 H100 和 1 個 Grace CPU 組合。而 GB200 超級芯片將 2 個 Blackwell GPU 和 CPU 組合，每個 GPU 的滿配 TDP 達(dá)到 1200W，使得整個超級芯片的 TDP 達(dá)到 2700W（1200W x 2+300W）。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

▲ Blackwell GB200 規(guī)格（圖源：芯東西根據(jù)技術(shù)簡報表格譯成中文）

值得關(guān)注的是，Blackwell 架構(gòu)技術(shù)簡報僅披露了 Tensor 核心數(shù)據(jù)，對 CUDA 核心數(shù)、Tensor 核心數(shù)、向量算力等信息只字未提。除了 FP64 是稠密，其他數(shù)據(jù)格式都顯示了稀疏算力。

相比之下，標(biāo)準(zhǔn) FP64 Tensor 核心計算性能提升幅度不大，H100 和 H200 是 67TFLOPS，GB200 超級芯片是 90TFLOPS，比上一代提高 34%。

一種可能的推測是 Blackwell 架構(gòu)的設(shè)計全面偏向 AI 計算，對高性能計算的提升不明顯。如果晶體管都用于堆 Tensor 核心，它的通用能力會變?nèi)?，更像個偏科的 AI NPU。

由于采用相同的基礎(chǔ)設(shè)施設(shè)計，從 Hopper 換用 Blackwell 主板就像推拉抽屜一樣方便。

技術(shù)簡報披露了 Blackwell x86 平臺 HGX B100、HGX B200 的系統(tǒng)配置。HGX B200 搭載 8 個 B200，每個 GPU 的 TDP 為 1000W；HGX B100 搭載 8 個 B100，每個 GPU 的 TDP 為 700W。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

▲ HGX B200 和 HGX B100 系統(tǒng)規(guī)格（圖源：Blackwell 架構(gòu)技術(shù)簡報）

在數(shù)據(jù)中心 Blackwell GPU 發(fā)布后，業(yè)界關(guān)注焦點移向同樣基于 Blackwell 架構(gòu)的游戲顯卡 RTX 50 系列。目前距離 RTX 50 系列 GPU 的發(fā)布日期還很遙遠(yuǎn)，最快也得到今年年底，慢點可能要到明年甚至是后年。

不過現(xiàn)在已經(jīng)有很多關(guān)于配置的傳言，比如采用臺積電 3nm 和 28Gbps GDDR 7 顯存、最大總線寬度有 384bit 和 512bit 兩種說法，芯片包括從入門級 GB207 到高端級 GB202，會繼續(xù)優(yōu)化路徑追蹤、光線追蹤。

02.8 年 AI 訓(xùn)練算力提升 1000 倍，英偉達(dá)是怎么做到的？

從 2016 年 Pascal GPU 的 19TFLOPS，到今年 Blackwell GPU 的 20PFLOPS，黃仁勛宣布英偉達(dá)用 8 年將單卡 AI 訓(xùn)練性能提升了 1000 倍。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

這個聽起來令人心潮澎湃的倍數(shù)，除了得益于制程工藝迭代、更大的 HBM 容量和帶寬、雙 die 設(shè)計外，數(shù)據(jù)精度的降低起到關(guān)鍵作用。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

多數(shù)訓(xùn)練是在 FP16 精度下進(jìn)行，但實際上不需要用這么高的精度去處理所有參數(shù)。英偉達(dá)一直在探索怎么通過混合精度操作來在降低內(nèi)存占用的同時確保吞吐量不受影響。

Blackwell GPU 內(nèi)置的第二代 Transformer 引擎，利用先進(jìn)的動態(tài)范圍管理算法和細(xì)粒度縮放技術(shù)（微型 tensor 縮放）來優(yōu)化性能和精度，并首度支持 FP4 新格式，使得 FP4 Tensor 核性能、HBM 模型規(guī)模和帶寬都實現(xiàn)翻倍。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

同時 TensorRT-LLM 的創(chuàng)新包括量化到 4bit 精度、具有專家并行映射的定制化內(nèi)核，能讓 MoE 模型實時推理使用耗費硬件、能量、成本。NeMo 框架、Megatron-Core 新型專家并行技術(shù)等都也為模型訓(xùn)練性能的提升提供了支持。

降精度的難點是兼顧用戶對準(zhǔn)確率的需求。FP4 并不在什么時候都有效，英偉達(dá)專門強(qiáng)調(diào)的是對混合專家模型和大語言模型帶來的好處。把精度降到 FP4 可能會有困惑度增加的問題，英偉達(dá)還貼心地加了個過渡的 FP6，這個新格式雖然沒什么性能優(yōu)勢，但處理數(shù)據(jù)量比 FP8 減少 25%，能緩解內(nèi)存壓力。

03.90 天 2000 塊 GPU 訓(xùn)練 1.8 萬億參數(shù)模型，打破通信瓶頸是關(guān)鍵

和消費級顯卡策略不同，面向數(shù)據(jù)中心，黃仁勛并不打算通過賣一顆兩顆顯卡來賺取蠅頭小利，而是走“堆料”路線來幫客戶省錢。

無論是大幅提高性能，還是節(jié)省機(jī)架空間、降低電力成本，都對在 AI 大模型競賽中爭分奪秒的企業(yè)們相當(dāng)有吸引力。

黃仁勛舉的例子是訓(xùn)練 1.8 萬億參數(shù)的 GPT-MoE 混合專家模型：

用 25000 個 Ampere GPU，需要 3~5 個月左右；要是用 Hopper，需要約 8000 個 GPU、90 天來訓(xùn)練，耗電 15MW；而用 Blackwell，同樣花 90 天，只需 2000 個 GPU，耗電僅 4MW。

省錢與省電成正比，提高能效的關(guān)鍵是減少通信損耗。據(jù) Ian Buck 和 Jonah Alben 分享，在 GPU 集群上運行龐大的 GPT-MoE 模型，有 60% 的時間都花在通信上。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

Ian Buck 解釋說，這不光是計算問題，還是 I / O 問題，混合專家模型帶來更多并行層和通信層。它將模型分解成一群擅長不同任務(wù)的專家，誰擅長什么，就將相應(yīng)訓(xùn)練和推理任務(wù)分配給誰。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

所以實現(xiàn)更快的 NVLink Switch 互連技術(shù)非常重要。所有 GPU 必須共享計算過程中的結(jié)果，在 DGX GB200 NVL72 機(jī)架中，多節(jié)點 All-to-All 通信、all-Reduce 的通信速度都較過去暴漲。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

全新 NVLink Switch 芯片總帶寬達(dá)到 7.2TB / s，支持 GPU 縱向擴(kuò)展，能驅(qū)動 4 個 1.8TB / s 的 NVLink 端口。而 PCIe 9.0 x16 插槽預(yù)計要到 2032 年才能提供 2TB / s 的帶寬。

從單卡來看，相比 H100，Blackwell GPU 的訓(xùn)練性能僅提高到 2.5 倍，即便按新添的 FP4 精度算，推理性能也只提高到 5 倍。

但如果從系統(tǒng)性能來看，相比上一代 Hopper 集群，Blackwell 可將 1.8 萬億參數(shù)的 GPT-MoE 推理性能提高到 30 倍。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

▲ 基于第二代 Transformer 引擎的 GB200 1.8T GPT-MoE 實時推理性能

藍(lán)色曲線代表 H200，紫紅色曲線代表 B200，從藍(lán)到紫只涉及從 Hopper 單芯設(shè)計到 Blackwell 雙芯設(shè)計的芯片升級。加上全新 FP4、Tensor 核心、Transformer 引擎、NVLink Switch 等技術(shù)，性能漲到如綠色曲線代表的 GB200 所示。

下圖中 Y 軸是每 GPU 每秒 token 數(shù)，代表數(shù)據(jù)中心吞吐量；X 軸是每用戶每秒 token 數(shù)，代表用戶的交互體驗，越靠近右上方的數(shù)據(jù)代表兩種能力都很強(qiáng)。綠色曲線是峰值性能線。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

為了找出 GPT-MoE 訓(xùn)練的正確并行配置，英偉達(dá)做了大量實驗（得到圖中的藍(lán)點），以探索創(chuàng)建硬件和切割模型的正確方法，使其盡可能實現(xiàn)高效運行。其探索包括一些軟件重分塊、優(yōu)化策略判斷，并將大模型分布在不同的 GPU 中來滿足性能需求。

左側(cè) TP2 代表 2 個 GPU 的 Tensor 并行，EP8 代表跨 8 個 GPU 的專家并行，DP4 代表跨 4 個 GPU 的數(shù)據(jù)并行。右側(cè)有 TP4，跨 4 個 GPU 的 Tensor 并行、跨 16 個 GPU 的專家并行。軟件層面不同的配置和分布式策略會導(dǎo)致運行時產(chǎn)生不同結(jié)果。

黃仁勛還從通信耗材的角度來說明 Blackwell DGX 系統(tǒng)能夠更省電省錢。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

他解釋說在 DGX 背面 NVLink 主干數(shù)據(jù)以 130TB / s 雙向帶寬通過機(jī)箱背面，比互聯(lián)網(wǎng)總帶寬還高，基本上 1 秒鐘內(nèi)能將所有內(nèi)容發(fā)送給每個人，里面有 5000 根 NVLink 銅纜、總長度 2 英里。

如果用光傳輸，就必須使用光模塊和 retimer，這倆器件要耗電 20kW，僅是光模塊就要耗電 2kW。只是為了驅(qū)動 NVLink 主干，英偉達(dá)通過 NVLink Switch 不耗電就能做到，還能節(jié)省 20kW 用于計算（整個機(jī)架功耗為 120kW）。

04.集結(jié)高速通信能力，在單機(jī)架上打造 E 級算力 AI 超級計算機(jī)

更快的網(wǎng)絡(luò)，帶來了更強(qiáng)大的計算效率。

DGX GB200 NVL72 采用液冷機(jī)架式設(shè)計，顧名思義，通過第五代 NVLink 以 1.8TB / s 通信速度將 72 個 GPU 互連。一個機(jī)架最多有高達(dá) 130TB / s 的 GPU 帶寬、30TB 內(nèi)存，訓(xùn)練算力接近 E 級、推理算力超過 E 級。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

相較相同數(shù)量 H100 GPU 的系統(tǒng)，GB200 NVL72 為 GPT-MoE-1.8T 等大語言模型提供 4 倍的訓(xùn)練性能。在 GB200 NVL72 中用 32 個 Blackwell GPU 運行 GPT-MoE-1.8T，速度是 64 個 Hopper GPU 的 30 倍。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

黃仁勛說，這是世界上第一臺單機(jī)架 EFLOPS 級機(jī)器，整個地球也不過兩三臺 E 級機(jī)器。

對比之下，8 年前，他交給 OpenAI 的第一臺 DGX-1，訓(xùn)練算力只有 0.17PFLOPS。

H100 搭配的第四代 NVLink 總帶寬是 900GB/s，第五代則翻倍提升到 1.8TB / s，是 PCle 5 帶寬的 14 倍以上。每個 GPU 的 NVLink 數(shù)量沒變，都是 18 個鏈路。CPU 與 B200 間的通信速度是 300GB/s，比 PCIe 6.0 x16 插槽的 256GB/s更快。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

GB200 NVL72 需要強(qiáng)大的網(wǎng)絡(luò)來實現(xiàn)最佳性能，用到了英偉達(dá) Quantum-X800 InfiniBand、Spectrum-X800 以太網(wǎng)、BlueField-3 DPU 和 Magnum IO 軟件。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

兩年前，黃仁勛看到的 GPU 是 HGX，重 70 磅，有 35000 個零件；現(xiàn)在 GPU 有 60 萬個零件，重 3000 磅，“應(yīng)該沒有一頭大象沉”，“重量跟一輛碳纖維法拉利差不多”。

第五代 NVLink 把 GPU 的可擴(kuò)展數(shù)量提高到 576 個。英偉達(dá)還推出一些 AI 安全功能來確保數(shù)據(jù)中心 GPU 的最大正常運行時間。8 個 GB200 NVL72 機(jī)架可組成 1 個 SuperPOD，與 800Gb / s InfiniBand 或以太網(wǎng)互連，或者可以創(chuàng)建一個將 576 個 GPU 互連的大型共享內(nèi)存系統(tǒng)。

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

據(jù) Ian Buck 透露，目前最大配置的 576 個 GPU 互連主要是用于研究，而不是生產(chǎn)。

05.結(jié)語：八年伏脈，一朝登頂

從打造垂直生態(tài)的角度來看，英偉達(dá)越來越像芯片和 AI 計算領(lǐng)域的蘋果，在研發(fā)、工程和生態(tài)方面都展現(xiàn)出強(qiáng)大而全面的統(tǒng)治力。

就像蘋果用 App Store 牢牢粘住開發(fā)者和消費者一樣，英偉達(dá)已經(jīng)打造了完備的芯片、系統(tǒng)、網(wǎng)絡(luò)、安全以及各種開發(fā)者所需的軟件，用最好的軟硬件組合不斷降低在 GPU 上加速 AI 計算的門檻，讓自己始終處于企業(yè)及開發(fā)者的首選之列。

在數(shù)據(jù)中心，看單個芯片峰值性能沒什么意義，很多芯片連在一起實現(xiàn)的實質(zhì)性算力改進(jìn)，才有直接參考性。所以黃仁勛要賣“系統(tǒng)”，是一步跨到數(shù)據(jù)中心客戶算力需求的終點。

相比上一代 Hopper，Blackwell GPU 的主要優(yōu)化沒有依賴制程工藝技術(shù)的提升，而是更先進(jìn)的內(nèi)存、更快的片內(nèi)互聯(lián)速度，并通過升級片間互連、多機(jī)互連的速度以及可擴(kuò)展性、管理軟件，消除大量數(shù)據(jù)處理導(dǎo)致的通信瓶頸，從而將大量 GPU 連成一個更具成本效益的強(qiáng)大系統(tǒng)。

草蛇灰線，伏脈千里。將芯片、存儲、網(wǎng)絡(luò)、軟件等各環(huán)節(jié)協(xié)同的系統(tǒng)設(shè)計之路，英偉達(dá)早在 8 年前就在探索。2016 年 4 月，黃仁勛親手將第一臺內(nèi)置 8 個 P100 GPU 的超級計算機(jī) DGX-1 贈予 OpenAI 團(tuán)隊。之后隨著 GPU 和互連技術(shù)的更新?lián)Q代，DGX 也會隨之升級，系統(tǒng)性能與日俱增。

數(shù)據(jù)中心 AI 芯片是當(dāng)前硅谷最熱門的硬件產(chǎn)品。而英偉達(dá)是這個行業(yè)的規(guī)則制定者，也是離生成式 AI 客戶需求最近的企業(yè)，其對下一代芯片架構(gòu)的設(shè)計與銷售策略具有行業(yè)風(fēng)向標(biāo)的作用。通過實現(xiàn)讓數(shù)百萬個 GPU 共同執(zhí)行計算任務(wù)并最大限度提高能效的基礎(chǔ)創(chuàng)新，黃仁勛反復(fù)強(qiáng)調(diào)的“買得越多省得越多”已經(jīng)越來越具有說服力。

本文來自微信公眾號：芯東西（ID：aichip001），作者：ZeR0

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

01.最強(qiáng) AI 芯片規(guī)格詳解：最大功耗 2700W，CUDA 配置成謎

02.8 年 AI 訓(xùn)練算力提升 1000 倍，英偉達(dá)是怎么做到的？

03.90 天 2000 塊 GPU 訓(xùn)練 1.8 萬億參數(shù)模型，打破通信瓶頸是關(guān)鍵

04.集結(jié)高速通信能力，在單機(jī)架上打造 E 級算力 AI 超級計算機(jī)

05.結(jié)語：八年伏脈，一朝登頂

相關(guān)文章

詳解最強(qiáng) AI 芯片架構(gòu)：英偉達(dá) Blackwell GPU 究竟牛在哪？現(xiàn)場對話技術(shù)高管

02.8 年 AI 訓(xùn)練算力提升 1000 倍，英偉達(dá)是怎么做到的？

03.90 天 2000 塊 GPU 訓(xùn)練 1.8 萬億參數(shù)模型，打破通信瓶頸是關(guān)鍵

04.集結(jié)高速通信能力，在單機(jī)架上打造 E 級算力 AI 超級計算機(jī)

05.結(jié)語：八年伏脈，一朝登頂