專(zhuān)為生成式 AI 設(shè)計(jì)的 GPU:HBM 密度是英偉達(dá) H100 的 2.4 倍,帶寬是英偉達(dá) H100 的 1.6 倍。
作者 | ZeR0
編輯 | 漠影
芯東西 6 月 14 日?qǐng)?bào)道,今日凌晨,英偉達(dá)的頭號(hào)勁敵 AMD,終于放出了令人期待已久的 AI 大招。
2014 年,蘇姿豐成為 AMD CEO 時(shí),這家芯片企業(yè)正瀕臨生存危機(jī),裁員約 1/4,股價(jià)徘徊在 2 美元。隨后在蘇姿豐的掌舵之下,AMD 完成了漂亮的轉(zhuǎn)身,9 年來(lái)股價(jià)飆升近 30 倍,對(duì)英偉達(dá)和英特爾兩家頂級(jí)芯片巨頭形成了制衡。
隨著生成式 AI 颶風(fēng)席卷全球,英偉達(dá) GPU 被各家大廠爭(zhēng)相搶購(gòu),焦點(diǎn)很快轉(zhuǎn)移到 AMD 身上 ——AMD 能否生產(chǎn)出足夠強(qiáng)大的 AI 芯片來(lái)打破英偉達(dá)近乎壟斷的市場(chǎng)地位,抓住新一波 AI 浪潮?
今日,AMD 交出階段性答卷。
在展示下一代 AI 芯片 MI300X 加速器時(shí),蘇姿豐滿(mǎn)面笑容地說(shuō):“我愛(ài)這顆芯片”。
MI300X 是一個(gè)純 GPU 版本,采用 AMD CDNA 3 技術(shù),使用多達(dá) 192 GB 的 HBM3 高帶寬內(nèi)存來(lái)加速大型語(yǔ)言模型和生成式 AI 計(jì)算。
AMD 主要客戶(hù)將在第三季度開(kāi)始試用 MI300X,第四季度開(kāi)始全面生產(chǎn)。另一種型號(hào) Instinct MI300A 現(xiàn)在正在向客戶(hù)發(fā)售。
蘇姿豐說(shuō),人工智能是 AMD“最大、最具戰(zhàn)略意義的長(zhǎng)期增長(zhǎng)機(jī)會(huì)”。
現(xiàn)場(chǎng),AMD 與明星 AI 獨(dú)角獸企業(yè) Hugging Face 宣布了一項(xiàng)新的合作伙伴關(guān)系,為 AMD 的 CPU、GPU 和其他 AI 硬件優(yōu)化他們的模型。
除了 AI 芯片外,AMD 還推出專(zhuān)為云計(jì)算和超大規(guī)模用戶(hù)設(shè)計(jì)的全新 EPYC 服務(wù)器處理器,代號(hào)為 Bergamo,每個(gè)插槽最多包含 128 個(gè)內(nèi)核,并針對(duì)各種容器化工作負(fù)載進(jìn)行了優(yōu)化。
亞馬遜旗下云計(jì)算部門(mén) AWS、甲骨文云、Meta、微軟 Azure 的高管均來(lái)到現(xiàn)場(chǎng),分享在其數(shù)據(jù)中心使用 AMD 芯片及軟件的感受。
01.加速生成式 AI:192GB HBM3,單個(gè) GPU 跑大模型
此前,AMD Instinct GPU 已經(jīng)被許多世界上最快的超級(jí)計(jì)算機(jī)采用。
MI300X 加速器是 AMD Instinct MI300 系列的新成員,提供一個(gè)僅有 GPU 配置的芯片版本。
MI300X 及其 CDNA 架構(gòu)專(zhuān)為大型語(yǔ)言模型和其他先進(jìn) AI 模型而設(shè)計(jì),將 12 個(gè) 5nm chiplets 封裝在一起,共有 1530 億顆晶體管。
這款全新 AI 芯片舍棄了 APU 的 24 個(gè) Zen 內(nèi)核和 I / O 芯片,轉(zhuǎn)而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3,提供 5.2 TB / s 的內(nèi)存帶寬和 896GB/s的無(wú)限帶寬。
MI300X 的 HBM 密度是英偉達(dá) H100 的 2.4 倍,帶寬是英偉達(dá) H100 的 1.6 倍,這意味著 AMD 可以運(yùn)行比英偉達(dá)芯片更大的模型。
AMD 演示了在單個(gè) MI300X GPU 上運(yùn)行擁有 400 億個(gè)參數(shù)的 Falcon-40B 大型語(yǔ)言模型,讓它寫(xiě)了一首關(guān)于舊金山的詩(shī)。
“模型尺寸變得越來(lái)越大,你需要多個(gè) GPU 來(lái)運(yùn)行最新的大型語(yǔ)言模型,”蘇姿豐說(shuō),隨著 AMD 芯片上內(nèi)存增加,開(kāi)發(fā)者將不需要那么多 GPU。
另一款 MI300A 被蘇姿豐稱(chēng)作“面向 AI 和高性能計(jì)算的全球首款 APU 加速器”,將多個(gè) CPU、GPU 和高帶寬內(nèi)存封在一起,在 13 個(gè) chiplets 上擁有 1460 億顆晶體管。
MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架構(gòu),搭配 24 個(gè) Zen 4 核心、128GB HBM3,相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。
AMD 還公布了一種 AMD Infinity 架構(gòu)。該架構(gòu)將 8 個(gè) MI300X 加速器連接在一個(gè)考慮了 AI 推理和訓(xùn)練的標(biāo)準(zhǔn)系統(tǒng)中,提供共 1.5TB HBM3 內(nèi)存。
據(jù)臺(tái)媒報(bào)道,AMD 的 Instinct MI300 系列以及英偉達(dá)的 H100 / H800 系列 GPU 都在采用臺(tái)積電先進(jìn)的后端 3D 封裝方法 CoWoS,導(dǎo)致臺(tái)積電 CoWoS 產(chǎn)能短缺將持續(xù)存在。臺(tái)積電目前有能力每月處理大約 8000 片 CoWoS 晶圓,其中英偉達(dá)和 AMD 合計(jì)占了大約 70% 到 80%。
此外,英偉達(dá)近年備受開(kāi)發(fā)者偏愛(ài)的一大關(guān)鍵護(hù)城河是 CUDA 軟件。AMD 總裁 Victor Peng 也展示了 AMD 在開(kāi)發(fā)軟件生態(tài)方面所做的努力。
AMD 計(jì)劃在 AI 軟件生態(tài)系統(tǒng)開(kāi)發(fā)中采用“開(kāi)放(Open)、成熟(Proven)、就緒(Ready)”的理念。
AMD 的 ROCm 是一套完整的庫(kù)和工具,用于優(yōu)化 AI 軟件棧。不同于 CUDA,這是一個(gè)開(kāi)放的平臺(tái)。
AMD 還分享了 PyTorch 與 ROCm 的合作。新的 PyTorch 2.0 的速度幾乎是之前版本的兩倍。AMD 是 PyTorch 基金會(huì)的創(chuàng)始成員之一。
AMD 正在不斷優(yōu)化 ROCm。Victor Peng 說(shuō):“雖然這是一段旅程,但我們?cè)跇?gòu)建可與模型、庫(kù)、框架和工具的開(kāi)放生態(tài)系統(tǒng)協(xié)同工作的強(qiáng)大軟件棧方面取得了真正的巨大進(jìn)步?!?/p>
02.云原生處理器 Bergamo:128 核,256 個(gè)線程,最高 vCPU 密度
再來(lái)看下 AMD 的數(shù)據(jù)中心 CPU。
蘇姿豐首先分享了 AMD EPYC 處理器的進(jìn)展,特別是在全球范圍內(nèi)可用的云計(jì)算實(shí)例方面。
她強(qiáng)調(diào)說(shuō),AMD 第四代 EPYC Genoa 處理器在云計(jì)算工作負(fù)載方面的性能是英特爾競(jìng)品的 1.8 倍,在企業(yè)工作負(fù)載方面的性能提高到 1.9 倍。
絕大多數(shù) AI 都在 CPU 上運(yùn)行,AMD 稱(chēng),與英特爾至強(qiáng) 8490H 相比,第四代 EPYC 在性能上遙遙領(lǐng)先,性能優(yōu)勢(shì)高出 1.9 倍。
蘇姿豐說(shuō),云原生處理器以吞吐量為導(dǎo)向,需要最高的性能、可擴(kuò)展性、計(jì)算密度和能效。
新發(fā)布的 Bergamo,便是云原生處理器市場(chǎng)的入口。
該芯片有 820 億顆晶體管,提供了最高的 vCPU 密度。
在大散熱器下,有一個(gè)表面看起來(lái)非常像以前的 EPYC 的芯片,跟與 Rome 或 Milan 一樣有中央 I / O 芯片和 8 個(gè)核心復(fù)合芯片(CCD)。
Bergamo 的每個(gè)插槽有多達(dá) 128 個(gè)核心、256 個(gè)線程,分布在 8 個(gè) CCD 上,每個(gè) CCD 的核心數(shù)量是 Genoa 16 個(gè)核心的兩倍,采用比標(biāo)準(zhǔn) Zen 4 內(nèi)核提供更高密度的全新 Zen 4c 核心設(shè)計(jì),并支持一致的 x86 ISA。
“Zen 4c 針對(duì)性能和功耗的最佳平衡點(diǎn)進(jìn)行了優(yōu)化,這為我們提供了更好的密度和能效,”蘇姿豐在演講中談道,“結(jié)果設(shè)計(jì)面積縮小了 35%,每瓦性能顯著提高?!?/p>
Bergamo 現(xiàn)在正在向 AMD 的云客戶(hù)發(fā)貨。AMD 還分享了第四代 EPYC 9754 與英特爾至強(qiáng) 8490H 的性能、密度和能效和對(duì)比:
除了 Bergamo 的新核心和 Chiplet 架構(gòu)之外,該處理器與 Genoa 有很多共同之處,包括支持 12 通道 DDR5 內(nèi)存、最新 PCIe 5.0、單插槽或雙插槽配置等等。
不過(guò),多核心不再只是 AMD 處理器獨(dú)有的特色。不久之前,數(shù)據(jù)中心處理器新起之秀 Ampere Computing 剛推出擁有多達(dá) 192 個(gè)單線程 Ampere 核心的 Ampere One 系列處理器。英特爾也計(jì)劃在 2024 年初推出內(nèi)核優(yōu)化的至強(qiáng)處理器 Sierra Forest,將內(nèi)置 144 個(gè)高效能核心。
AMD 還展示了其最新的緩存堆疊 X 芯片,代號(hào)為 Genoa-X,現(xiàn)已上市。
該芯片針對(duì)高性能計(jì)算工作負(fù)載,包括計(jì)算流體動(dòng)力學(xué)、電子設(shè)計(jì)自動(dòng)化、有限元分析、地震層析成像及其他帶寬敏感型工作負(fù)載,這些工作負(fù)載受益于大量共享緩存。
Genoa-X CPU 基于 AMD 的標(biāo)準(zhǔn) Genoa 平臺(tái),采用 AMD 3D V-Cache 技術(shù),通過(guò)在每個(gè) CCD 上垂直堆疊 SRAM 模塊來(lái)提高可用的 L3 緩存。
該芯片可提供多達(dá) 96 個(gè)內(nèi)核和總計(jì) 1.1GB 的 L3 高速緩存,每個(gè) CCD 上堆疊了一個(gè) 64MB SRAM 塊。
據(jù) AMD 披露的數(shù)據(jù),在各種計(jì)算流體動(dòng)力學(xué)和有限元分析工作負(fù)載方面,與英特爾最高規(guī)格的 60 核 Sapphire Rapids 至強(qiáng)相比,Genoa-X 緩存提升的性能提高到 2.2 倍到 2.9 倍。
下圖是 Genoa-X 與相同數(shù)量核心的英特爾至強(qiáng)的性能對(duì)比:
03.即將推出全新 DPU
最后,AMD 簡(jiǎn)要介紹了其網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
去年 AMD 以 19 億美元收購(gòu) Pensando,進(jìn)入 DPU 賽道。AMD 解釋了如何使用其 DPU 來(lái)減少數(shù)據(jù)中心的網(wǎng)絡(luò)開(kāi)銷(xiāo)。
AMD 將其 P4 DPU 架構(gòu)稱(chēng)作“世界上最智能的 DPU”,并稱(chēng)其 Pensando SmartNIC 是新數(shù)據(jù)中心架構(gòu)不可或缺的一部分。
AMD 還在現(xiàn)場(chǎng)展示了與 Aruba Networks 共同開(kāi)發(fā)的智能交換機(jī)。AMD 計(jì)劃將 P4 DPU 卸載集成到網(wǎng)絡(luò)交換機(jī)本身,從而提供機(jī)架級(jí)服務(wù)。
AMD 最新的 DPU 旨在從 CPU 卸載網(wǎng)絡(luò)、安全和虛擬化任務(wù),與當(dāng)前一代 P4 DPU 相比將提供更高的性能和能效。
其 DPU 已得到微軟、IBM 云、甲骨文云等許多主要云提供商以及 VMware 虛擬機(jī)管理程序等軟件套件的支持。
AMD 打算在今年晚些時(shí)候推出 Giglio DPU 之前擴(kuò)大兼容軟件列表,推出“芯片軟件開(kāi)發(fā)工具包”,以便用戶(hù)更輕松地在其 DPU 上部署工作負(fù)載。
04.結(jié)語(yǔ):到 2027 年,數(shù)據(jù)中心 AI 加速器市場(chǎng)規(guī)模將超過(guò) 1500 億美元
全球數(shù)據(jù)中心 GPU 和 CPU 的頭部企業(yè)英偉達(dá)和英特爾均在強(qiáng)調(diào)其加速 AI 的實(shí)力。作為這兩條賽道“萬(wàn)年老二”的 AMD,也在競(jìng)相滿(mǎn)足對(duì) AI 計(jì)算日益增長(zhǎng)的需求,并通過(guò)推出適應(yīng)最新需求的數(shù)據(jù)中心 GPU 來(lái)挑戰(zhàn)英偉達(dá)在新興市場(chǎng)的主導(dǎo)地位。
生成式 AI 和大型語(yǔ)言模型的應(yīng)用熱潮正在將數(shù)據(jù)中心推向極限。截至目前,英偉達(dá)在提供處理這些工作負(fù)載所需的技術(shù)方面具有優(yōu)勢(shì)。根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu) New Street Research 的數(shù)據(jù),英偉達(dá)占據(jù)了可用于機(jī)器學(xué)習(xí)的 GPU 市場(chǎng)的 95%。
“我們?nèi)蕴幱?AI 生命周期的非常、非常早的階段,”蘇姿豐預(yù)測(cè),到 2027 年,數(shù)據(jù)中心 AI 加速器總潛在市場(chǎng)規(guī)模將增長(zhǎng) 5 倍,從今年的 300 億美元左右以超過(guò) 50% 的復(fù)合年增長(zhǎng)率增長(zhǎng)到 2027 年的 1500 億美元以上。
AMD 并未透露兩款 MI300 新芯片的價(jià)格,但這可能會(huì)給英偉達(dá)帶來(lái)一定價(jià)格壓力,之前 H100 價(jià)格據(jù)傳高達(dá) 30000 美元乃至更多。
本文來(lái)自微信公眾號(hào):芯東西 (ID:aichip001),作者:ZeR0
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。