首頁 > 智能時代>人工智能

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

新智元 2023/9/10 23:16:49 責(zé)編：遠(yuǎn)洋

評論：

【新智元導(dǎo)讀】英偉達(dá)首席科學(xué)家揭秘英偉達(dá) GPU 能如此成功的 4 個主要原因，4 個關(guān)鍵數(shù)據(jù)帶來持續(xù)的行業(yè)競爭力。

如今的英偉達(dá)，穩(wěn)坐 GPU 霸主王座。

ChatGPT 誕生后，帶來生成式 AI 大爆發(fā)，徹底掀起了全球的算力爭奪戰(zhàn)。

前段時間，一篇文章揭露，全球?qū)?H100 總需求量超 43 萬張，而且這樣的趨勢至少持續(xù)到 2024 年底。

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

過去的 10 年里，英偉達(dá)成功地將自家芯片在 AI 任務(wù)上的性能提升了千倍。

對于一個剛剛邁入萬億美元的公司來說，是如何取得成功的？

近日，英偉達(dá)首席科學(xué)家 Bill Dally 在硅谷舉行的 IEEE 2023 年熱門芯片研討會上，發(fā)表了關(guān)于高性能微處理器的主題演講。

在他演講 PPT 中的一頁，總結(jié)了英偉達(dá)迄今為止取得成功的 4 個要素。

摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分，而全新「數(shù)字表示」占據(jù)很大一部分。

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

英偉達(dá)如何在 10 年內(nèi)將其 GPU 在 AI 任務(wù)上的性能提高了千倍

把以上所有這些加在一起，你就會得到「黃氏定律」（Huang's Law）。

黃教主曾表示，「由于圖形處理器的出現(xiàn)，摩爾定律已經(jīng)站不住腳了，代之以一個新的超強(qiáng)定律。」

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

數(shù)字表示：16 倍提升

Dally 表示，總的來說，我們最大的收獲是來自更好的「數(shù)字表示」。

這些數(shù)字，代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。

其中一個參數(shù)是權(quán)重，模型中神經(jīng)元與神經(jīng)元之間的連接強(qiáng)度。

另一個是激活度，神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活，從而將信息傳播到下一層。

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

在 P100 之前，英偉達(dá) GPU 使用單精度浮點(diǎn)數(shù)來表示這些權(quán)重。

根據(jù) IEEE 754 標(biāo)準(zhǔn)定義，這些數(shù)字長度為 32 位，其中 23 位表示分?jǐn)?shù)，8 位基本上是分?jǐn)?shù)的指數(shù)，還有 1 位表示數(shù)字的符號。

但機(jī)器學(xué)習(xí)研究人員很快發(fā)現(xiàn)，在許多計算中，可以使用不太精確的數(shù)字，而神經(jīng)網(wǎng)絡(luò)仍然會給出同樣精確的答案。

這樣做的明顯優(yōu)勢是，如果機(jī)器學(xué)習(xí)的關(guān)鍵計算 —— 乘法和累加 —— 需要處理更少的比特，可以使邏輯變得更快、更小、更高效。

因此，在 P100 中，英偉達(dá)使用了半精度 FP16。

谷歌甚至提出了自己的版本，稱作 bfloat16。

兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對數(shù)量：分?jǐn)?shù)位提供精度，指數(shù)位提供范圍。Bfloat16 的范圍位數(shù)與 FP32 相同，因此在兩種格式之間來回切換更容易。

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

回到現(xiàn)在，英偉達(dá)領(lǐng)先的圖形處理器 H100，可以使用 8 位數(shù)完成大規(guī)模 Transformer 神經(jīng)網(wǎng)絡(luò)的某些任務(wù)，如 ChatGPT 和其他大型語言模型。

然而，英偉達(dá)卻發(fā)現(xiàn)這不是一個萬能的解決方案。

例如，英偉達(dá)的 Hopper 圖形處理器架構(gòu)實際上使用兩種不同的 FP8 格式進(jìn)行計算，一種精度稍高，另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢在于知道何時使用哪種格式。

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

Dally 和他的團(tuán)隊有各種各樣有趣的想法，可以從更少的比特中榨取更多的人工智能性能。顯然，浮點(diǎn)系統(tǒng)顯然并不理想。

一個主要問題是，無論數(shù)字有多大或多小，浮點(diǎn)精度都非常一致。

但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù)，而是主要集聚在 0 附近。因此，英偉達(dá)的 R&D 重點(diǎn)是尋找有效的方法來表示數(shù)字，以便它們在 0 附近更準(zhǔn)確。

復(fù)雜指令：12.5 倍

「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡單算術(shù)操作的開銷，」 Dally 說道。

他以一個乘法指令為例，執(zhí)行這個指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運(yùn)算本身所需的 1.5 焦耳的 20 倍。通過將 GPU 設(shè)計為在單個指令中執(zhí)行大規(guī)模計算，而不是一系列的多個指令，英偉達(dá)有效地降低了單個計算的開銷，取得了巨大的收益。

Dally 表示，雖然仍然存在一些開銷，但在復(fù)雜指令的情況下，這些開銷會分?jǐn)偟礁嗟臄?shù)學(xué)運(yùn)算中。例如，復(fù)雜指令整數(shù)矩陣乘積累加（IMMA）的開銷僅占數(shù)學(xué)計算能量成本的 16％。

摩爾定律：2.5 倍

保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計，甚至還會帶來國際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá) GPU 的成功的主要原因。

英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來生產(chǎn) GPU——H100 采用臺積電的的 N5（5 納米）工藝制造。這家芯片工廠直到 2022 年底才開始建設(shè)它的其下一代 N3 工藝。在建好之前，N5 就是業(yè)內(nèi)最頂尖的制造工藝。

稀疏性：2 倍

將這些網(wǎng)絡(luò)變得「稀疏」以減少計算負(fù)荷是一項棘手的工作。

但是在 A100，H100 的前身中，英偉達(dá)引入了他們的新技術(shù)：「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計可以強(qiáng)制實現(xiàn)每四個可能的剪枝事件中的兩次，從而帶來了一種新的更小的矩陣計算。

Dally 表示：「我們在稀疏性方面的工作尚未結(jié)束。我們需要再對激活函數(shù)進(jìn)行加工，并且權(quán)重中也可以有更大的稀疏性。」

參考資料：

https://spectrum.ieee.org/nvidia-gpu

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素

數(shù)字表示：16 倍提升

復(fù)雜指令：12.5 倍

摩爾定律：2.5 倍

稀疏性：2 倍

相關(guān)文章

全球哄搶 H100！英偉達(dá)成 GPU 霸主，首席科學(xué)家揭秘成功四要素