首頁(yè) > 智能時(shí)代>人工智能

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

新智元 2025/2/15 13:39:23 責(zé)編：清源

評(píng)論：

全球有多少 AI 算力？算力增長(zhǎng)速度有多快？在這場(chǎng) AI「淘金熱」中，都有哪些新「鏟子」？AI 初創(chuàng)企業(yè) Epoch AI 發(fā)布了最新全球硬件估算報(bào)告。

AI 的物質(zhì)基礎(chǔ)是機(jī)器學(xué)習(xí)硬件，例如圖形處理單元（GPU）和張量處理單元（TPU）。

據(jù)不完全統(tǒng)計(jì)，目前全球超過(guò) 140 款 AI 加速器，用于開發(fā)和部署深度學(xué)習(xí)時(shí)代的機(jī)器學(xué)習(xí)模型。

Epoch AI 帶來(lái)了全球算力的估計(jì)報(bào)告，利用公開信息估計(jì)了全球機(jī)器學(xué)習(xí)硬件的現(xiàn)狀和趨勢(shì)。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

除了傳統(tǒng)硬件廠商英偉達(dá)、AMD 等紛紛推出加速卡，一些新興勢(shì)力開始「造芯」，算力持續(xù)提升。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

2008 至 2024 年全球機(jī)器學(xué)習(xí)硬件的計(jì)算能力示意圖

除了 GPU，硬件類型也豐富了起來(lái)。比如，出現(xiàn)了專門處理張量計(jì)算的 TPU（張量處理單元，Tensor Processing Unit）。

報(bào)告的主要結(jié)論，總結(jié)如下：

總量每年增長(zhǎng) 43%，價(jià)格下降 30%。
低精度計(jì)算成為主流。
頂級(jí)硬件能效每 1.9 年翻一番。
八年間，訓(xùn)練大型模型所需的處理器數(shù)量增加了 20 多倍。
全球 NVIDIA 支持的計(jì)算能力平均每 10 個(gè)月翻一番。

關(guān)鍵發(fā)現(xiàn)：ML 硬件的「摩爾定律」

ML 硬件每年增長(zhǎng) 43%

以 16 位浮點(diǎn)運(yùn)算衡量，機(jī)器學(xué)習(xí)硬件的性能以每年 43% 的速度增長(zhǎng)，每 1.9 年翻一番。32 位性能也存在類似的趨勢(shì)。

優(yōu)化機(jī)器學(xué)習(xí)數(shù)字格式和張量核心提供了額外的改進(jìn)。

驅(qū)動(dòng)因素還包括晶體管數(shù)量的增加和其他半導(dǎo)體制造技術(shù)的進(jìn)步，以及針對(duì) AI 工作負(fù)載的專門設(shè)計(jì)。這種改進(jìn)降低了每 FLOP 的成本，提高了能源效率，并實(shí)現(xiàn)了大規(guī)模人工智能訓(xùn)練。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

機(jī)器學(xué)習(xí)硬件在不同精度下的峰值計(jì)算性能

性價(jià)比每年提升 30%

每美元性能提升迅速，并且任何給定精度和固定性能水平的硬件每年都會(huì)便宜 30%。與此同時(shí)，制造商不斷推出更強(qiáng)大、更昂貴的硬件。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

單位時(shí)間單位價(jià)格下的 FLOP

低精度格式是趨勢(shì)

在使用針對(duì)人工智能計(jì)算優(yōu)化的張量核心和數(shù)據(jù)格式時(shí)，GPU 通常速度更快。

與使用非張量 FP32 相比，TF32、張量 FP16 和張量 INT8 在總體性能趨勢(shì)中平均提供約 6 倍、10 倍和 12 倍的性能提升。

一些芯片甚至實(shí)現(xiàn)了更大的加速。例如，H100 在 INT8 時(shí)的速度比在 FP32 時(shí)快 59 倍。

自推出以來(lái)，這些改進(jìn)約占整體性能趨勢(shì)改進(jìn)的一半。隨著開發(fā)人員利用這種性能提升，使用較低精度格式（尤其是張量 FP16）訓(xùn)練的模型已經(jīng)變得很常見。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

能效每 1.9 年翻一番

根據(jù)歷史數(shù)據(jù)，頂級(jí) GPU 和 TPU 的能效每 1.9 年翻一番。

就 tensor-FP16 格式而言，效率最高的加速器是 Meta 的 MTIA（每瓦高達(dá) 2.1x10^12FLOP/s）和 NVIDIA H100（每瓦高達(dá) 1.4x10^12FLOP/s）。即將推出的 Blackwell 系列處理器可能會(huì)更有效率，具體取決于其功耗。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

模型也各有所愛

在 Epoch 的數(shù)據(jù)集中，NVIDIA A100 是用于高引用或最先進(jìn)人工智能模型的最常用的硬件，自發(fā)布以來(lái)已用于 65 個(gè)著名 ML 模型。

其次是 NVIDIA V100，用于訓(xùn)練 55 個(gè)著名模型，其次是谷歌的 TPU v3，用于 47 個(gè)。

然而，估計(jì) NVIDIA H100 到 2023 年底的銷量已超過(guò) A100，因此它可能在不久的將來(lái)成為訓(xùn)練模型最受歡迎的 GPU。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

不同加速器訓(xùn)練的知名模型數(shù)量

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

2019 年至今，不同領(lǐng)域大模型訓(xùn)練所需算力比較

訓(xùn)練集群規(guī)模猛增

用于訓(xùn)練大型語(yǔ)言模型（LLMs）的處理器數(shù)量的顯著增長(zhǎng)。

Google NASv3 RL 網(wǎng)絡(luò) (2016): 使用了 800 個(gè) GPU 進(jìn)行訓(xùn)練。
Meta Llama 3.1 405B (2024): 使用了 16,384 個(gè) H100 GPU 進(jìn)行訓(xùn)練。

這意味著在短短八年間，訓(xùn)練大型模型所需的處理器數(shù)量增加了 20 多倍。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

四大「算力帝國(guó)」？

谷歌、微軟、Meta 和亞馬遜擁有相當(dāng)于數(shù)十萬(wàn)個(gè) NVIDIA H100 的 AI 算力。

這些計(jì)算資源既用于他們內(nèi)部的 AI 開發(fā)，也用于云客戶，包括許多頂級(jí) AI 實(shí)驗(yàn)室，如 OpenAI 和 Anthropic。

谷歌可能擁有相當(dāng)于超過(guò)一百萬(wàn)個(gè) H100 的計(jì)算能力，主要來(lái)自他們的 TPU。

微軟可能擁有最大的 NVIDIA 加速器庫(kù)存，約為 50 萬(wàn)個(gè) H100 當(dāng)量。

大量的 AI 計(jì)算能力由這四家公司以外的集團(tuán)共同擁有，包括其他云公司如 Oracle 和 CoreWeave，計(jì)算用戶如特斯拉和 xAI，以及各國(guó)政府。

之所以重點(diǎn)介紹谷歌、微軟、Meta 和亞馬遜，因?yàn)樗麄兛赡軗碛凶疃嗟挠?jì)算能力，而其他公司的數(shù)據(jù)公開較少。

初步工作發(fā)現(xiàn)，截至 2024 年中，谷歌 TPU 的總算力大約是英偉達(dá)芯片的 30%。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

英偉達(dá)每年不止翻一番

自 2019 年以來(lái)，NVIDIA 芯片的總可用計(jì)算能力大約每年增長(zhǎng) 2.3 倍，從而能夠訓(xùn)練越來(lái)越大的模型。

也就是說(shuō)，全球 NVIDIA 組成的計(jì)算能力平均每 10 個(gè)月翻一番。

Hopper 這一代 NVIDIA AI 芯片目前占其所有 AI 硬件總計(jì)算能力的 77%。按照這種增長(zhǎng)速度，舊的芯片型號(hào)在其推出后大約 4 年左右，對(duì)累計(jì)計(jì)算量的貢獻(xiàn)往往會(huì)低于一半。

請(qǐng)注意，此分析不包括 TPU 或其他專用 AI 加速器，因?yàn)檫@方面的數(shù)據(jù)較少。TPU 可能提供與 NVIDIA 芯片相當(dāng)?shù)目傆?jì)算能力。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

按芯片型號(hào)分解，發(fā)現(xiàn)目前大約 77% 的 NVIDIA FLOP/s 來(lái)自 Hopper 代際的 GPU，如 H100。

目前估計(jì) NVIDIA GPU 可提供 4e21 FLOP/s 的計(jì)算能力，約相當(dāng)于 400 萬(wàn)個(gè) H100。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

注意：這些估計(jì)基于 NVIDIA 的收入申報(bào)文件，并假設(shè)不同時(shí)代芯片的分布隨時(shí)間變化的模式與 AI 集群數(shù)據(jù)集中的模式相同。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

英偉達(dá) 23-24 年季度財(cái)報(bào)

此外，報(bào)告發(fā)現(xiàn)自 2019 年以來(lái)，計(jì)算能力的累計(jì)總和（考慮折舊）每年增長(zhǎng) 2.3 倍。

但僅考慮數(shù)據(jù)中心銷售額，而忽略 NVIDIA 收入報(bào)告中「游戲」（Gaming）銷售額帶來(lái)的計(jì)算能力。

公開數(shù)據(jù)集

Epoch 同時(shí)公布了機(jī)器學(xué)習(xí)硬件數(shù)據(jù)集和數(shù)據(jù)分析源代碼。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

https://epoch.ai/data/machine-learning-hardware-documentation#overview

詳細(xì)數(shù)據(jù)分析流程，參見下列 NoteBook。

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

參考資料：

https://epoch.ai/data/machine-learning-hardware

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

ML 硬件每年增長(zhǎng) 43%

性價(jià)比每年提升 30%

低精度格式是趨勢(shì)

能效每 1.9 年翻一番

模型也各有所愛

訓(xùn)練集群規(guī)模猛增

四大「算力帝國(guó)」？

英偉達(dá)每年不止翻一番

公開數(shù)據(jù)集

相關(guān)文章

全球 AI 算力報(bào)告出爐：LLM 最愛 A100，谷歌坐擁超 100 萬(wàn) H100 等效算力

四大「算力帝國(guó)」？