設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全球哄搶 H100!英偉達(dá)成 GPU 霸主,首席科學(xué)家揭秘成功四要素

新智元 2023/9/10 23:16:49 責(zé)編:遠(yuǎn)洋

【新智元導(dǎo)讀】英偉達(dá)首席科學(xué)家揭秘英偉達(dá) GPU 能如此成功的 4 個主要原因,4 個關(guān)鍵數(shù)據(jù)帶來持續(xù)的行業(yè)競爭力。

如今的英偉達(dá),穩(wěn)坐 GPU 霸主王座。

ChatGPT 誕生后,帶來生成式 AI 大爆發(fā),徹底掀起了全球的算力爭奪戰(zhàn)。

前段時間,一篇文章揭露,全球?qū)?H100 總需求量超 43 萬張,而且這樣的趨勢至少持續(xù)到 2024 年底。

過去的 10 年里,英偉達(dá)成功地將自家芯片在 AI 任務(wù)上的性能提升了千倍。

對于一個剛剛邁入萬億美元的公司來說,是如何取得成功的?

近日,英偉達(dá)首席科學(xué)家 Bill Dally 在硅谷舉行的 IEEE 2023 年熱門芯片研討會上,發(fā)表了關(guān)于高性能微處理器的主題演講。

在他演講 PPT 中的一頁,總結(jié)了英偉達(dá)迄今為止取得成功的 4 個要素。

摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分,而全新「數(shù)字表示」占據(jù)很大一部分。

英偉達(dá)如何在 10 年內(nèi)將其 GPU 在 AI 任務(wù)上的性能提高了千倍

把以上所有這些加在一起,你就會得到「黃氏定律」(Huang's Law)。

黃教主曾表示,「由于圖形處理器的出現(xiàn),摩爾定律已經(jīng)站不住腳了,代之以一個新的超強定律?!?/p>

數(shù)字表示:16 倍提升

Dally 表示,總的來說,我們最大的收獲是來自更好的「數(shù)字表示」。

這些數(shù)字,代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。

其中一個參數(shù)是權(quán)重,模型中神經(jīng)元與神經(jīng)元之間的連接強度。

另一個是激活度,神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活,從而將信息傳播到下一層。

在 P100 之前,英偉達(dá) GPU 使用單精度浮點數(shù)來表示這些權(quán)重。

根據(jù) IEEE 754 標(biāo)準(zhǔn)定義,這些數(shù)字長度為 32 位,其中 23 位表示分?jǐn)?shù),8 位基本上是分?jǐn)?shù)的指數(shù),還有 1 位表示數(shù)字的符號。

但機器學(xué)習(xí)研究人員很快發(fā)現(xiàn),在許多計算中,可以使用不太精確的數(shù)字,而神經(jīng)網(wǎng)絡(luò)仍然會給出同樣精確的答案。

這樣做的明顯優(yōu)勢是,如果機器學(xué)習(xí)的關(guān)鍵計算 —— 乘法和累加 —— 需要處理更少的比特,可以使邏輯變得更快、更小、更高效。

因此,在 P100 中,英偉達(dá)使用了半精度 FP16。

谷歌甚至提出了自己的版本,稱作 bfloat16。

兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對數(shù)量:分?jǐn)?shù)位提供精度,指數(shù)位提供范圍。Bfloat16 的范圍位數(shù)與 FP32 相同,因此在兩種格式之間來回切換更容易。

回到現(xiàn)在,英偉達(dá)領(lǐng)先的圖形處理器 H100,可以使用 8 位數(shù)完成大規(guī)模 Transformer 神經(jīng)網(wǎng)絡(luò)的某些任務(wù),如 ChatGPT 和其他大型語言模型。

然而,英偉達(dá)卻發(fā)現(xiàn)這不是一個萬能的解決方案。

例如,英偉達(dá)的 Hopper 圖形處理器架構(gòu)實際上使用兩種不同的 FP8 格式進(jìn)行計算,一種精度稍高,另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢在于知道何時使用哪種格式。

Dally 和他的團(tuán)隊有各種各樣有趣的想法,可以從更少的比特中榨取更多的人工智能性能。顯然,浮點系統(tǒng)顯然并不理想。

一個主要問題是,無論數(shù)字有多大或多小,浮點精度都非常一致。

但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù),而是主要集聚在 0 附近。因此,英偉達(dá)的 R&D 重點是尋找有效的方法來表示數(shù)字,以便它們在 0 附近更準(zhǔn)確。

復(fù)雜指令:12.5 倍

「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡單算術(shù)操作的開銷,」 Dally 說道。

他以一個乘法指令為例,執(zhí)行這個指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運算本身所需的 1.5 焦耳的 20 倍。通過將 GPU 設(shè)計為在單個指令中執(zhí)行大規(guī)模計算,而不是一系列的多個指令,英偉達(dá)有效地降低了單個計算的開銷,取得了巨大的收益。

Dally 表示,雖然仍然存在一些開銷,但在復(fù)雜指令的情況下,這些開銷會分?jǐn)偟礁嗟臄?shù)學(xué)運算中。例如,復(fù)雜指令整數(shù)矩陣乘積累加(IMMA)的開銷僅占數(shù)學(xué)計算能量成本的 16%。

摩爾定律:2.5 倍

保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計,甚至還會帶來國際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá) GPU 的成功的主要原因。

英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來生產(chǎn) GPU——H100 采用臺積電的的 N5(5 納米)工藝制造。這家芯片工廠直到 2022 年底才開始建設(shè)它的其下一代 N3 工藝。在建好之前,N5 就是業(yè)內(nèi)最頂尖的制造工藝。

稀疏性:2 倍

將這些網(wǎng)絡(luò)變得「稀疏」以減少計算負(fù)荷是一項棘手的工作。

但是在 A100,H100 的前身中,英偉達(dá)引入了他們的新技術(shù):「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計可以強制實現(xiàn)每四個可能的剪枝事件中的兩次,從而帶來了一種新的更小的矩陣計算。

Dally 表示:「我們在稀疏性方面的工作尚未結(jié)束。我們需要再對激活函數(shù)進(jìn)行加工,并且權(quán)重中也可以有更大的稀疏性?!?/p>

參考資料:

https://spectrum.ieee.org/nvidia-gpu

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達(dá),人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知