設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全球 AI 算力報(bào)告出爐:LLM 最愛 A100,谷歌坐擁超 100 萬(wàn) H100 等效算力

新智元 2025/2/15 13:39:23 責(zé)編:清源

全球有多少 AI 算力?算力增長(zhǎng)速度有多快?在這場(chǎng) AI「淘金熱」中,都有哪些新「鏟子」?AI 初創(chuàng)企業(yè) Epoch AI 發(fā)布了最新全球硬件估算報(bào)告。

AI 的物質(zhì)基礎(chǔ)是機(jī)器學(xué)習(xí)硬件,例如圖形處理單元(GPU)和張量處理單元(TPU)。

據(jù)不完全統(tǒng)計(jì),目前全球超過(guò) 140 款 AI 加速器,用于開發(fā)和部署深度學(xué)習(xí)時(shí)代的機(jī)器學(xué)習(xí)模型。

Epoch AI 帶來(lái)了全球算力的估計(jì)報(bào)告,利用公開信息估計(jì)了全球機(jī)器學(xué)習(xí)硬件的現(xiàn)狀和趨勢(shì)。

除了傳統(tǒng)硬件廠商英偉達(dá)、AMD 等紛紛推出加速卡,一些新興勢(shì)力開始「造芯」,算力持續(xù)提升。

2008 至 2024 年全球機(jī)器學(xué)習(xí)硬件的計(jì)算能力示意圖

除了 GPU,硬件類型也豐富了起來(lái)。比如,出現(xiàn)了專門處理張量計(jì)算的 TPU(張量處理單元,Tensor Processing Unit)。

報(bào)告的主要結(jié)論,總結(jié)如下:

  • 總量每年增長(zhǎng) 43%,價(jià)格下降 30%。

  • 低精度計(jì)算成為主流。

  • 頂級(jí)硬件能效每 1.9 年翻一番。

  • 八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了 20 多倍。

  • 全球 NVIDIA 支持的計(jì)算能力平均每 10 個(gè)月翻一番。

  • 關(guān)鍵發(fā)現(xiàn):ML 硬件的「摩爾定律」

    ML 硬件每年增長(zhǎng) 43%

    以 16 位浮點(diǎn)運(yùn)算衡量,機(jī)器學(xué)習(xí)硬件的性能以每年 43% 的速度增長(zhǎng),每 1.9 年翻一番。32 位性能也存在類似的趨勢(shì)。

    優(yōu)化機(jī)器學(xué)習(xí)數(shù)字格式和張量核心提供了額外的改進(jìn)。

    驅(qū)動(dòng)因素還包括晶體管數(shù)量的增加和其他半導(dǎo)體制造技術(shù)的進(jìn)步,以及針對(duì) AI 工作負(fù)載的專門設(shè)計(jì)。這種改進(jìn)降低了每 FLOP 的成本,提高了能源效率,并實(shí)現(xiàn)了大規(guī)模人工智能訓(xùn)練。

    機(jī)器學(xué)習(xí)硬件在不同精度下的峰值計(jì)算性能

    性價(jià)比每年提升 30%

    每美元性能提升迅速,并且任何給定精度和固定性能水平的硬件每年都會(huì)便宜 30%。與此同時(shí),制造商不斷推出更強(qiáng)大、更昂貴的硬件。

    單位時(shí)間單位價(jià)格下的 FLOP

    低精度格式是趨勢(shì)

    在使用針對(duì)人工智能計(jì)算優(yōu)化的張量核心和數(shù)據(jù)格式時(shí),GPU 通常速度更快。

    與使用非張量 FP32 相比,TF32、張量 FP16 和張量 INT8 在總體性能趨勢(shì)中平均提供約 6 倍、10 倍和 12 倍的性能提升。

    一些芯片甚至實(shí)現(xiàn)了更大的加速。例如,H100 在 INT8 時(shí)的速度比在 FP32 時(shí)快 59 倍。

    自推出以來(lái),這些改進(jìn)約占整體性能趨勢(shì)改進(jìn)的一半。隨著開發(fā)人員利用這種性能提升,使用較低精度格式(尤其是張量 FP16)訓(xùn)練的模型已經(jīng)變得很常見。

    能效每 1.9 年翻一番

    根據(jù)歷史數(shù)據(jù),頂級(jí) GPU 和 TPU 的能效每 1.9 年翻一番。

    就 tensor-FP16 格式而言,效率最高的加速器是 Meta 的 MTIA(每瓦高達(dá) 2.1x10^12FLOP/s)和 NVIDIA H100(每瓦高達(dá) 1.4x10^12FLOP/s)。即將推出的 Blackwell 系列處理器可能會(huì)更有效率,具體取決于其功耗。

    模型也各有所愛

    在 Epoch 的數(shù)據(jù)集中,NVIDIA A100 是用于高引用或最先進(jìn)人工智能模型的最常用的硬件,自發(fā)布以來(lái)已用于 65 個(gè)著名 ML 模型。

    其次是 NVIDIA V100,用于訓(xùn)練 55 個(gè)著名模型,其次是谷歌的 TPU v3,用于 47 個(gè)。

    然而,估計(jì) NVIDIA H100 到 2023 年底的銷量已超過(guò) A100,因此它可能在不久的將來(lái)成為訓(xùn)練模型最受歡迎的 GPU。

    不同加速器訓(xùn)練的知名模型數(shù)量

    2019 年至今,不同領(lǐng)域大模型訓(xùn)練所需算力比較

    訓(xùn)練集群規(guī)模猛增

    用于訓(xùn)練大型語(yǔ)言模型(LLMs)的處理器數(shù)量的顯著增長(zhǎng)。

    • Google NASv3 RL 網(wǎng)絡(luò) (2016): 使用了 800 個(gè) GPU 進(jìn)行訓(xùn)練。

    • Meta Llama 3.1 405B (2024): 使用了 16,384 個(gè) H100 GPU 進(jìn)行訓(xùn)練。

    這意味著在短短八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了 20 多倍。

    四大「算力帝國(guó)」?

    谷歌、微軟、Meta 和亞馬遜擁有相當(dāng)于數(shù)十萬(wàn)個(gè) NVIDIA H100 的 AI 算力。

    這些計(jì)算資源既用于他們內(nèi)部的 AI 開發(fā),也用于云客戶,包括許多頂級(jí) AI 實(shí)驗(yàn)室,如 OpenAI 和 Anthropic。

    谷歌可能擁有相當(dāng)于超過(guò)一百萬(wàn)個(gè) H100 的計(jì)算能力,主要來(lái)自他們的 TPU。

    微軟可能擁有最大的 NVIDIA 加速器庫(kù)存,約為 50 萬(wàn)個(gè) H100 當(dāng)量。

    大量的 AI 計(jì)算能力由這四家公司以外的集團(tuán)共同擁有,包括其他云公司如 Oracle 和 CoreWeave,計(jì)算用戶如特斯拉和 xAI,以及各國(guó)政府。

    之所以重點(diǎn)介紹谷歌、微軟、Meta 和亞馬遜,因?yàn)樗麄兛赡軗碛凶疃嗟挠?jì)算能力,而其他公司的數(shù)據(jù)公開較少。

    初步工作發(fā)現(xiàn),截至 2024 年中,谷歌 TPU 的總算力大約是英偉達(dá)芯片的 30%。

    英偉達(dá)每年不止翻一番

    自 2019 年以來(lái),NVIDIA 芯片的總可用計(jì)算能力大約每年增長(zhǎng) 2.3 倍,從而能夠訓(xùn)練越來(lái)越大的模型。

    也就是說(shuō),全球 NVIDIA 組成的計(jì)算能力平均每 10 個(gè)月翻一番。

    Hopper 這一代 NVIDIA AI 芯片目前占其所有 AI 硬件總計(jì)算能力的 77%。按照這種增長(zhǎng)速度,舊的芯片型號(hào)在其推出后大約 4 年左右,對(duì)累計(jì)計(jì)算量的貢獻(xiàn)往往會(huì)低于一半。

    請(qǐng)注意,此分析不包括 TPU 或其他專用 AI 加速器,因?yàn)檫@方面的數(shù)據(jù)較少。TPU 可能提供與 NVIDIA 芯片相當(dāng)?shù)目傆?jì)算能力。

    按芯片型號(hào)分解,發(fā)現(xiàn)目前大約 77% 的 NVIDIA FLOP/s 來(lái)自 Hopper 代際的 GPU,如 H100。

    目前估計(jì) NVIDIA GPU 可提供 4e21 FLOP/s 的計(jì)算能力,約相當(dāng)于 400 萬(wàn)個(gè) H100。

    注意:這些估計(jì)基于 NVIDIA 的收入申報(bào)文件,并假設(shè)不同時(shí)代芯片的分布隨時(shí)間變化的模式與 AI 集群數(shù)據(jù)集中的模式相同。

    英偉達(dá) 23-24 年季度財(cái)報(bào)

    此外,報(bào)告發(fā)現(xiàn)自 2019 年以來(lái),計(jì)算能力的累計(jì)總和(考慮折舊)每年增長(zhǎng) 2.3 倍。

    但僅考慮數(shù)據(jù)中心銷售額,而忽略 NVIDIA 收入報(bào)告中「游戲」(Gaming)銷售額帶來(lái)的計(jì)算能力。

    公開數(shù)據(jù)集

    Epoch 同時(shí)公布了機(jī)器學(xué)習(xí)硬件數(shù)據(jù)集和數(shù)據(jù)分析源代碼。

    https://epoch.ai/data/machine-learning-hardware-documentation#overview

    詳細(xì)數(shù)據(jù)分析流程,參見下列 NoteBook。

    https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

    參考資料:

    • https://epoch.ai/data/machine-learning-hardware

    本文來(lái)自微信公眾號(hào):新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,算力

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知