設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌最強(qiáng) AI 超算碾壓英偉達(dá) A100,TPU v4 性能提升 10 倍,細(xì)節(jié)首次公開

新智元 2023/4/6 18:15:01 責(zé)編:夢澤

微軟為 ChatGPT 打造專用超算,砸下幾億美元,用了上萬張 A100?,F(xiàn)在,谷歌首次公布了自家 AI 超算的細(xì)節(jié) —— 性能相較上代 v3 提升 10 倍,比 A100 強(qiáng) 1.7 倍。此外,據(jù)說能和 H100 對打的芯片已經(jīng)在研發(fā)了。

雖然谷歌早在 2020 年,就在自家的數(shù)據(jù)中心上部署了當(dāng)時最強(qiáng)的 AI 芯片 ——TPU v4。

但直到今年的 4 月 4 日,谷歌才首次公布了這臺 AI 超算的技術(shù)細(xì)節(jié)。

論文地址:https://arxiv.org/ abs / 2304.01433

相比于 TPU v3,TPU v4 的性能要高出 2.1 倍,而在整合 4096 個芯片之后,超算的性能更是提升了 10 倍。

另外,谷歌還聲稱,自家芯片要比英偉達(dá) A100 更快、更節(jié)能。

與 A100 對打,速度快 1.7 倍

論文中,谷歌表示,對于規(guī)模相當(dāng)?shù)南到y(tǒng),TPU v4 可以提供比英偉達(dá) A100 強(qiáng) 1.7 倍的性能,同時在能效上也能提高 1.9 倍。

另外,谷歌超算速度還要比 Graphcore IPU Bow 快約 4.3 倍至 4.5 倍。

谷歌展示了 TPU v4 的封裝,以及 4 個安裝在電路板上的封裝。

與 TPU v3 一樣,每個 TPU v4 包含兩個 TensorCore(TC)。每個 TC 包含四個 128x128 矩陣乘法單元(MXU),一個具有 128 個通道(每個通道 16 個 ALU),以及 16 MiB 向量存儲器(VMEM)的向量處理單元(VPU)。

兩個 TC 共享一個 128 MiB 的公共存儲器(CMEM)。

值得注意的是,A100 芯片與谷歌第四代 TPU 同時上市,那么其具體性能對比如何?

谷歌分別展示了在 5 個 MLPerf 基準(zhǔn)測試中每個 DSA 的最快性能。其中包括 BERT、ResNET、DLRM、RetinaNet、MaskRCNN。

其中,Graphcore IPU 在 BERT 和 ResNET 提交了結(jié)果。

如下展示了兩個系統(tǒng)在 ResNet 和 BERT 的結(jié)果,點之間的虛線是基于芯片數(shù)量的插值。

TPU v4 和 A100 的 MLPerf 結(jié)果都擴(kuò)展到比 IPU 更大的系統(tǒng)(4096 個芯片對比 256 個芯片)。

對于相似規(guī)模的系統(tǒng),TPU v4 在 BERT 上比 A100 快 1.15 倍,比 IPU 快大約 4.3 倍。對于 ResNet,TPU v4 分別快 1.67 倍和大約 4.5 倍。

對于在 MLPerf 基準(zhǔn)測試上的功耗使用情況,A100 平均上使用了 1.3 倍至 1.9 倍的功率。

峰值每秒浮點運(yùn)算次數(shù)是否能預(yù)測實際性能?許多機(jī)器學(xué)習(xí)領(lǐng)域的人認(rèn)為峰值每秒浮點運(yùn)算次數(shù)是一個很好的性能代理指標(biāo),但實際上并非如此。

例如,盡管在峰值每秒浮點運(yùn)算次數(shù)上僅具有 1.10 倍的優(yōu)勢,TPU v4 在兩個 MLPerf 基準(zhǔn)測試上比 IPU Bow 在相同規(guī)模的系統(tǒng)上快 4.3 倍至 4.5 倍。

另一個例子是,A100 的峰值每秒浮點運(yùn)算次數(shù)是 TPU v4 的 1.13 倍,但對于相同數(shù)量的芯片,TPU v4 卻快 1.15 倍至 1.67 倍。

如下如圖使用 Roofline 模型展示了峰值 FLOPS / 秒與內(nèi)存帶寬之間的關(guān)系。

那么,問題來了,谷歌為什么不和英偉達(dá)最新的 H100 比較?

谷歌表示,由于 H100 是在谷歌芯片推出后使用更新技術(shù)制造的,所以沒有將其第四代產(chǎn)品與英偉達(dá)當(dāng)前的旗艦 H100 芯片進(jìn)行比較。

不過谷歌暗示,它正在研發(fā)一款與 Nvidia H100 競爭的新 TPU,但沒有提供詳細(xì)信息。谷歌研究員 Jouppi 在接受路透社采訪時表示,谷歌擁有「未來芯片的生產(chǎn)線」。

TPU vs GPU

在 ChatGPT 和 Bard「決一死戰(zhàn)」的同時,兩個龐然大物也在幕后努力運(yùn)行,以保持它們的運(yùn)行 —— 英偉達(dá) CUDA 支持的 GPU(圖形處理單元)和谷歌定制的 TPU(張量處理單元)。

換句話說,這已經(jīng)不再是關(guān)于 ChatGPT 與 Bard 的對抗,而是 TPU 與 GPU 之間的對決,以及它們?nèi)绾斡行У剡M(jìn)行矩陣乘法。

由于在硬件架構(gòu)方面的出色設(shè)計,英偉達(dá)的 GPU 非常適合矩陣乘法任務(wù) —— 能有效地在多個 CUDA 核心之間實現(xiàn)并行處理。

因此從 2012 年開始,在 GPU 上訓(xùn)練模型便成為了深度學(xué)習(xí)領(lǐng)域的共識,至今都未曾改變。

而隨著 NVIDIA DGX 的推出,英偉達(dá)能夠為幾乎所有的 AI 任務(wù)提供一站式硬件和軟件解決方案,這是競爭對手由于缺乏知識產(chǎn)權(quán)而無法提供的。

相比之下,谷歌則在 2016 年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優(yōu)化的定制 ASIC(專用集成電路),并且還針對自家的 TensorFlow 框架進(jìn)行了優(yōu)化。而這也讓 TPU 在矩陣乘法之外的其他 AI 計算任務(wù)中具有優(yōu)勢,甚至還可以加速微調(diào)和推理任務(wù)。

此外,谷歌 DeepMind 的研究人員還找到了一種能夠創(chuàng)造出更好矩陣乘法算法的方法 ——AlphaTensor。

然而,即便谷歌通過自研的技術(shù)和新興的 AI 計算優(yōu)化方法取得了良好的成果,但微軟與英偉達(dá)長久以來的深度合作,則通過利用各自在行業(yè)上的積累,同時擴(kuò)大了雙方的競爭優(yōu)勢。

第四代 TPU

時間回到 21 年的谷歌 I / O 大會上,劈柴首次公布了谷歌最新一代 AI 芯片 TPU v4。

「這是我們在谷歌上部署的最快的系統(tǒng),對我們來說是一個具有歷史意義的里程碑?!?/p>

這次的改進(jìn)已經(jīng)成為構(gòu)建 AI 超算的公司之間競爭的關(guān)鍵點,因為像谷歌的 Bard、或 OpenAI 的 ChatGPT 類似的大型語言模型已經(jīng)在參數(shù)規(guī)模上實現(xiàn)爆炸式增長。

這意味著它們遠(yuǎn)遠(yuǎn)大于單個芯片所能存儲的容量,對算力需求是一個巨大的「黑洞」。

因此這些大模型必須分布在數(shù)千個芯片上,然后這些芯片必須協(xié)同工作數(shù)周,甚至更長時間來訓(xùn)練模型。

目前,谷歌迄今為止公開披露的最大的語言模型 PaLM,有 5400 億參數(shù),便是在 50 天內(nèi)將其分割到兩臺 4000 芯片的超級計算機(jī)上進(jìn)行訓(xùn)練的。

谷歌表示,自家的超級計算機(jī)能夠輕松地重新配置芯片之間的連接,能夠避免問題,并進(jìn)行性能調(diào)優(yōu)。

谷歌研究員 Norm Jouppi 和谷歌杰出工程師 David Patterson 在關(guān)于該系統(tǒng)的博客文章中寫道,

「電路交換使得繞過失效組件變得容易。這種靈活性甚至允許我們改變超算互連的拓?fù)浣Y(jié)構(gòu),以加速機(jī)器學(xué)習(xí)模型的性能。」

盡管谷歌現(xiàn)在才發(fā)布有關(guān)其超級計算機(jī)的詳細(xì)信息,但自 2020 年以來,該超級計算機(jī)已在位于俄克拉荷馬州梅斯縣的數(shù)據(jù)中心內(nèi)上線。

谷歌表示,Midjourney 使用該系統(tǒng)訓(xùn)練了其模型,最新版的 V5 讓所有人見識到圖像生成的驚艷。

最近,劈柴在接受紐約時報采訪稱,Bard 將從 LaMDA 轉(zhuǎn)到 PaLM 上。

現(xiàn)在有了 TPU v4 超算的加持,Bard 只會變得更強(qiáng)。

參考資料:

  • https://www.reuters.com/technology/google-says-its-ai-supercomputer-is-faster-greener-than-nvidia-2023-04-05/

  • https://analyticsindiamag.com/forget-chatgpt-vs-bard-the-real-battle-is-gpus-vs-tpus/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌Bard

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知