首頁 > IT資訊>業(yè)界

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

芯東西 2023/6/14 11:45:08 責(zé)編：夢澤

評論：

感謝IT之家網(wǎng)友 HH_KK、華南吳彥祖、雨雪載途、烏蠅哥的左手的線索投遞！

專為生成式 AI 設(shè)計(jì)的 GPU：HBM 密度是英偉達(dá) H100 的 2.4 倍，帶寬是英偉達(dá) H100 的 1.6 倍。

作者 | ZeR0

編輯 | 漠影

芯東西 6 月 14 日報(bào)道，今日凌晨，英偉達(dá)的頭號勁敵 AMD，終于放出了令人期待已久的 AI 大招。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

2014 年，蘇姿豐成為 AMD CEO 時，這家芯片企業(yè)正瀕臨生存危機(jī)，裁員約 1/4，股價徘徊在 2 美元。隨后在蘇姿豐的掌舵之下，AMD 完成了漂亮的轉(zhuǎn)身，9 年來股價飆升近 30 倍，對英偉達(dá)和英特爾兩家頂級芯片巨頭形成了制衡。

隨著生成式 AI 颶風(fēng)席卷全球，英偉達(dá) GPU 被各家大廠爭相搶購，焦點(diǎn)很快轉(zhuǎn)移到 AMD 身上 ——AMD 能否生產(chǎn)出足夠強(qiáng)大的 AI 芯片來打破英偉達(dá)近乎壟斷的市場地位，抓住新一波 AI 浪潮？

今日，AMD 交出階段性答卷。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

在展示下一代 AI 芯片 MI300X 加速器時，蘇姿豐滿面笑容地說：“我愛這顆芯片”。

MI300X 是一個純 GPU 版本，采用 AMD CDNA 3 技術(shù)，使用多達(dá) 192 GB 的 HBM3 高帶寬內(nèi)存來加速大型語言模型和生成式 AI 計(jì)算。

AMD 主要客戶將在第三季度開始試用 MI300X，第四季度開始全面生產(chǎn)。另一種型號 Instinct MI300A 現(xiàn)在正在向客戶發(fā)售。

蘇姿豐說，人工智能是 AMD“最大、最具戰(zhàn)略意義的長期增長機(jī)會”。

現(xiàn)場，AMD 與明星 AI 獨(dú)角獸企業(yè) Hugging Face 宣布了一項(xiàng)新的合作伙伴關(guān)系，為 AMD 的 CPU、GPU 和其他 AI 硬件優(yōu)化他們的模型。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

除了 AI 芯片外，AMD 還推出專為云計(jì)算和超大規(guī)模用戶設(shè)計(jì)的全新 EPYC 服務(wù)器處理器，代號為 Bergamo，每個插槽最多包含 128 個內(nèi)核，并針對各種容器化工作負(fù)載進(jìn)行了優(yōu)化。

亞馬遜旗下云計(jì)算部門 AWS、甲骨文云、Meta、微軟 Azure 的高管均來到現(xiàn)場，分享在其數(shù)據(jù)中心使用 AMD 芯片及軟件的感受。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

01.加速生成式 AI：192GB HBM3，單個 GPU 跑大模型

此前，AMD Instinct GPU 已經(jīng)被許多世界上最快的超級計(jì)算機(jī)采用。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

MI300X 加速器是 AMD Instinct MI300 系列的新成員，提供一個僅有 GPU 配置的芯片版本。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

MI300X 及其 CDNA 架構(gòu)專為大型語言模型和其他先進(jìn) AI 模型而設(shè)計(jì)，將 12 個 5nm chiplets 封裝在一起，共有 1530 億顆晶體管。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

這款全新 AI 芯片舍棄了 APU 的 24 個 Zen 內(nèi)核和 I / O 芯片，轉(zhuǎn)而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3，提供 5.2 TB / s 的內(nèi)存帶寬和 896GB/s的無限帶寬。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

MI300X 的 HBM 密度是英偉達(dá) H100 的 2.4 倍，帶寬是英偉達(dá) H100 的 1.6 倍，這意味著 AMD 可以運(yùn)行比英偉達(dá)芯片更大的模型。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 演示了在單個 MI300X GPU 上運(yùn)行擁有 400 億個參數(shù)的 Falcon-40B 大型語言模型，讓它寫了一首關(guān)于舊金山的詩。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

“模型尺寸變得越來越大，你需要多個 GPU 來運(yùn)行最新的大型語言模型，”蘇姿豐說，隨著 AMD 芯片上內(nèi)存增加，開發(fā)者將不需要那么多 GPU。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

另一款 MI300A 被蘇姿豐稱作“面向 AI 和高性能計(jì)算的全球首款 APU 加速器”，將多個 CPU、GPU 和高帶寬內(nèi)存封在一起，在 13 個 chiplets 上擁有 1460 億顆晶體管。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架構(gòu)，搭配 24 個 Zen 4 核心、128GB HBM3，相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。

AMD 還公布了一種 AMD Infinity 架構(gòu)。該架構(gòu)將 8 個 MI300X 加速器連接在一個考慮了 AI 推理和訓(xùn)練的標(biāo)準(zhǔn)系統(tǒng)中，提供共 1.5TB HBM3 內(nèi)存。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

據(jù)臺媒報(bào)道，AMD 的 Instinct MI300 系列以及英偉達(dá)的 H100 / H800 系列 GPU 都在采用臺積電先進(jìn)的后端 3D 封裝方法 CoWoS，導(dǎo)致臺積電 CoWoS 產(chǎn)能短缺將持續(xù)存在。臺積電目前有能力每月處理大約 8000 片 CoWoS 晶圓，其中英偉達(dá)和 AMD 合計(jì)占了大約 70% 到 80%。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

此外，英偉達(dá)近年備受開發(fā)者偏愛的一大關(guān)鍵護(hù)城河是 CUDA 軟件。AMD 總裁 Victor Peng 也展示了 AMD 在開發(fā)軟件生態(tài)方面所做的努力。

AMD 計(jì)劃在 AI 軟件生態(tài)系統(tǒng)開發(fā)中采用“開放（Open）、成熟（Proven）、就緒（Ready）”的理念。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 的 ROCm 是一套完整的庫和工具，用于優(yōu)化 AI 軟件棧。不同于 CUDA，這是一個開放的平臺。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 還分享了 PyTorch 與 ROCm 的合作。新的 PyTorch 2.0 的速度幾乎是之前版本的兩倍。AMD 是 PyTorch 基金會的創(chuàng)始成員之一。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 正在不斷優(yōu)化 ROCm。Victor Peng 說：“雖然這是一段旅程，但我們在構(gòu)建可與模型、庫、框架和工具的開放生態(tài)系統(tǒng)協(xié)同工作的強(qiáng)大軟件棧方面取得了真正的巨大進(jìn)步?！?/p>

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

02.云原生處理器 Bergamo：128 核，256 個線程，最高 vCPU 密度

再來看下 AMD 的數(shù)據(jù)中心 CPU。

蘇姿豐首先分享了 AMD EPYC 處理器的進(jìn)展，特別是在全球范圍內(nèi)可用的云計(jì)算實(shí)例方面。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

她強(qiáng)調(diào)說，AMD 第四代 EPYC Genoa 處理器在云計(jì)算工作負(fù)載方面的性能是英特爾競品的 1.8 倍，在企業(yè)工作負(fù)載方面的性能提高到 1.9 倍。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

絕大多數(shù) AI 都在 CPU 上運(yùn)行，AMD 稱，與英特爾至強(qiáng) 8490H 相比，第四代 EPYC 在性能上遙遙領(lǐng)先，性能優(yōu)勢高出 1.9 倍。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

蘇姿豐說，云原生處理器以吞吐量為導(dǎo)向，需要最高的性能、可擴(kuò)展性、計(jì)算密度和能效。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

新發(fā)布的 Bergamo，便是云原生處理器市場的入口。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

該芯片有 820 億顆晶體管，提供了最高的 vCPU 密度。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

在大散熱器下，有一個表面看起來非常像以前的 EPYC 的芯片，跟與 Rome 或 Milan 一樣有中央 I / O 芯片和 8 個核心復(fù)合芯片（CCD）。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

Bergamo 的每個插槽有多達(dá) 128 個核心、256 個線程，分布在 8 個 CCD 上，每個 CCD 的核心數(shù)量是 Genoa 16 個核心的兩倍，采用比標(biāo)準(zhǔn) Zen 4 內(nèi)核提供更高密度的全新 Zen 4c 核心設(shè)計(jì)，并支持一致的 x86 ISA。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

“Zen 4c 針對性能和功耗的最佳平衡點(diǎn)進(jìn)行了優(yōu)化，這為我們提供了更好的密度和能效，”蘇姿豐在演講中談道，“結(jié)果設(shè)計(jì)面積縮小了 35%，每瓦性能顯著提高。”

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

Bergamo 現(xiàn)在正在向 AMD 的云客戶發(fā)貨。AMD 還分享了第四代 EPYC 9754 與英特爾至強(qiáng) 8490H 的性能、密度和能效和對比：

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

除了 Bergamo 的新核心和 Chiplet 架構(gòu)之外，該處理器與 Genoa 有很多共同之處，包括支持 12 通道 DDR5 內(nèi)存、最新 PCIe 5.0、單插槽或雙插槽配置等等。

不過，多核心不再只是 AMD 處理器獨(dú)有的特色。不久之前，數(shù)據(jù)中心處理器新起之秀 Ampere Computing 剛推出擁有多達(dá) 192 個單線程 Ampere 核心的 Ampere One 系列處理器。英特爾也計(jì)劃在 2024 年初推出內(nèi)核優(yōu)化的至強(qiáng)處理器 Sierra Forest，將內(nèi)置 144 個高效能核心。

AMD 還展示了其最新的緩存堆疊 X 芯片，代號為 Genoa-X，現(xiàn)已上市。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

該芯片針對高性能計(jì)算工作負(fù)載，包括計(jì)算流體動力學(xué)、電子設(shè)計(jì)自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負(fù)載，這些工作負(fù)載受益于大量共享緩存。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

Genoa-X CPU 基于 AMD 的標(biāo)準(zhǔn) Genoa 平臺，采用 AMD 3D V-Cache 技術(shù)，通過在每個 CCD 上垂直堆疊 SRAM 模塊來提高可用的 L3 緩存。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

該芯片可提供多達(dá) 96 個內(nèi)核和總計(jì) 1.1GB 的 L3 高速緩存，每個 CCD 上堆疊了一個 64MB SRAM 塊。

據(jù) AMD 披露的數(shù)據(jù)，在各種計(jì)算流體動力學(xué)和有限元分析工作負(fù)載方面，與英特爾最高規(guī)格的 60 核 Sapphire Rapids 至強(qiáng)相比，Genoa-X 緩存提升的性能提高到 2.2 倍到 2.9 倍。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

下圖是 Genoa-X 與相同數(shù)量核心的英特爾至強(qiáng)的性能對比：

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

03.即將推出全新 DPU

最后，AMD 簡要介紹了其網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

去年 AMD 以 19 億美元收購 Pensando，進(jìn)入 DPU 賽道。AMD 解釋了如何使用其 DPU 來減少數(shù)據(jù)中心的網(wǎng)絡(luò)開銷。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 將其 P4 DPU 架構(gòu)稱作“世界上最智能的 DPU”，并稱其 Pensando SmartNIC 是新數(shù)據(jù)中心架構(gòu)不可或缺的一部分。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 還在現(xiàn)場展示了與 Aruba Networks 共同開發(fā)的智能交換機(jī)。AMD 計(jì)劃將 P4 DPU 卸載集成到網(wǎng)絡(luò)交換機(jī)本身，從而提供機(jī)架級服務(wù)。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 最新的 DPU 旨在從 CPU 卸載網(wǎng)絡(luò)、安全和虛擬化任務(wù)，與當(dāng)前一代 P4 DPU 相比將提供更高的性能和能效。

其 DPU 已得到微軟、IBM 云、甲骨文云等許多主要云提供商以及 VMware 虛擬機(jī)管理程序等軟件套件的支持。

AMD 打算在今年晚些時候推出 Giglio DPU 之前擴(kuò)大兼容軟件列表，推出“芯片軟件開發(fā)工具包”，以便用戶更輕松地在其 DPU 上部署工作負(fù)載。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

04.結(jié)語：到 2027 年，數(shù)據(jù)中心 AI 加速器市場規(guī)模將超過 1500 億美元

全球數(shù)據(jù)中心 GPU 和 CPU 的頭部企業(yè)英偉達(dá)和英特爾均在強(qiáng)調(diào)其加速 AI 的實(shí)力。作為這兩條賽道“萬年老二”的 AMD，也在競相滿足對 AI 計(jì)算日益增長的需求，并通過推出適應(yīng)最新需求的數(shù)據(jù)中心 GPU 來挑戰(zhàn)英偉達(dá)在新興市場的主導(dǎo)地位。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

生成式 AI 和大型語言模型的應(yīng)用熱潮正在將數(shù)據(jù)中心推向極限。截至目前，英偉達(dá)在提供處理這些工作負(fù)載所需的技術(shù)方面具有優(yōu)勢。根據(jù)市場調(diào)研機(jī)構(gòu) New Street Research 的數(shù)據(jù)，英偉達(dá)占據(jù)了可用于機(jī)器學(xué)習(xí)的 GPU 市場的 95%。

“我們?nèi)蕴幱?AI 生命周期的非常、非常早的階段，”蘇姿豐預(yù)測，到 2027 年，數(shù)據(jù)中心 AI 加速器總潛在市場規(guī)模將增長 5 倍，從今年的 300 億美元左右以超過 50% 的復(fù)合年增長率增長到 2027 年的 1500 億美元以上。

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

AMD 并未透露兩款 MI300 新芯片的價格，但這可能會給英偉達(dá)帶來一定價格壓力，之前 H100 價格據(jù)傳高達(dá) 30000 美元乃至更多。

本文來自微信公眾號：芯東西（ID：aichip001），作者：ZeR0

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

01.加速生成式 AI：192GB HBM3，單個 GPU 跑大模型

02.云原生處理器 Bergamo：128 核，256 個線程，最高 vCPU 密度

03.即將推出全新 DPU

04.結(jié)語：到 2027 年，數(shù)據(jù)中心 AI 加速器市場規(guī)模將超過 1500 億美元

相關(guān)文章

1530 億顆晶體管，AMD 甩出最強(qiáng) AI 芯片，單個 GPU 跑大模型

01.加速生成式 AI：192GB HBM3，單個 GPU 跑大模型

02.云原生處理器 Bergamo：128 核，256 個線程，最高 vCPU 密度

04.結(jié)語：到 2027 年，數(shù)據(jù)中心 AI 加速器市場規(guī)模將超過 1500 億美元