六大門派，圍攻云端 AI 芯片光明頂

芯東西 2022/9/13 20:49:40 責(zé)編：孤城

評論：

AI 芯片的戰(zhàn)場，明顯更熱鬧了。

就在上周五，國際權(quán)威人工智能（AI）性能基準(zhǔn)測試 MLPerf 公布了最新的數(shù)據(jù)中心及邊緣場景 AI 推理榜單結(jié)果，無論是參與評選的企業(yè)還是實際 AI 芯片表現(xiàn)，都比往屆多了不少看頭。

六大門派，圍攻云端 AI 芯片光明頂

打頭陣的自然還是國際 AI 計算巨頭英偉達(dá)。這是英偉達(dá)（NVIDIA）第一次讓其今年剛發(fā)布的最新旗艦 AI 加速器 H100 Tensor Core GPU 提交成績，AI 推理性能足足比上一代 GPU 高出 4.5 倍。

高通則通過云端 AI 芯片 Cloud AI 100 的最新評測成績，證明其在高能效方面依然很能打。

國內(nèi) AI 芯片企業(yè)也不示弱，這次壁仞科技、墨芯人工智能均首次“參戰(zhàn)”，并且戰(zhàn)績不俗，在部分模型的成績甚至超過了英偉達(dá)旗艦 AI 芯片 A100 和 H100。

壁仞科技共提交了數(shù)據(jù)中心場景 ResNet 和 BERT 99.90% 精度兩個模型的數(shù)據(jù)，同時包括 Offline 模式和 Server 模式，其離線模式 8 卡整機(jī)性能在 BERT 模型下達(dá)到英偉達(dá) 8 卡 A100 機(jī)型性能的 1.58 倍。

墨芯的 S30 計算卡則在 ResNet-50 95784 FPS 的單卡算力奪得第一，達(dá)到英偉達(dá) H100 的 1.2 倍、A100 的 2 倍。

還有韓國 SK 電訊在 2020 年 11 月推出的韓國首個 AI 芯片 Sapeon X220，這次也通過參與測試展現(xiàn)出超過英偉達(dá)入門級 AI 加速卡 A2 性能的表現(xiàn)。

不過，在今年 6 月訓(xùn)練基準(zhǔn)測試榜單中大秀高性能、高能效成績的谷歌 TPU v4 芯片，并沒有出現(xiàn)在此次推理榜單中。

此外，英特爾、阿里也分別展示了僅基于其服務(wù)器 CPU 的系統(tǒng)在加速 AI 推理方面的性能表現(xiàn)。

總的來說，英偉達(dá) A100 依然是橫掃各大測試成績的全能選手，還未上市的 H100 此次只是初露鋒芒，預(yù)計訓(xùn)練性能的提升會更加“夸張”。

國產(chǎn) AI 芯片雖然只參加了 ResNet、BERT 等部分 AI 模型的評測，但單點戰(zhàn)績已經(jīng)能與英偉達(dá)旗艦計算產(chǎn)品比肩，展現(xiàn)出在跑特定模型時替代國際先進(jìn)產(chǎn)品的能力。

MLPerf 數(shù)據(jù)中心推理榜單：

https://mlcommons.org/en/inference-datacenter-21/

MLPerf 邊緣推理榜單：

https://mlcommons.org/en/inference-edge-21/

01. H100 王者登場，英偉達(dá)仍然稱雄

MLPerf 基準(zhǔn)測試按部署方式分為數(shù)據(jù)中心、邊緣、移動、物聯(lián)網(wǎng)四類場景，覆蓋六類最具代表性的主流 AI 模型 —— 圖像分類（ResNet50）、自然語言處理（BERT）、語音識別（RNN-T）、目標(biāo)物體檢測（RetinaNet）、醫(yī)學(xué)影像分割（3D-UNet）、智能推薦（DLRM）。

其中，自然語言理解、醫(yī)學(xué)影像分割和智能推薦 3 個任務(wù)設(shè)置了 99% 與 99.9% 兩種精度要求，以考察提升 AI 推理精度要求對計算性能的影響。

截至目前，英偉達(dá)是唯一一家在每輪 MLPerf 基準(zhǔn)測試都參與所有主流算法測試的公司。

英偉達(dá) A100 在最新 MLPerf AI 推理測試榜單中依然大殺四方，在多類模型榜單的性能表現(xiàn)均名列前茅。A100 的繼任者 H100 首次在 MLPerf 亮相，連破多項世界記錄，其性能比 A100 高出 4.5 倍。

六大門派，圍攻云端 AI 芯片光明頂

▲ 英偉達(dá) H100 性能比 A100 高出 4.5 倍（圖源：英偉達(dá)）

英偉達(dá)基于 H100 GPU 單芯片提交了兩個系統(tǒng)，一個系統(tǒng)配備 AMD EPYC CPU 作為主機(jī)處理器，另一個系統(tǒng)配備英特爾至強(qiáng) CPU。

可以看到，雖然采用英偉達(dá)最新 Hopper 架構(gòu)的 H100 GPU 這次只展示了單芯片的測試成績，其性能已經(jīng)在多個情況下超過有 2、4、8 顆 A100 芯片的系統(tǒng)的性能。

六大門派，圍攻云端 AI 芯片光明頂

▲ 英偉達(dá) H100 在數(shù)據(jù)中心場景所有工作負(fù)載都刷新性能記錄（圖源：英偉達(dá)）

特別是用在對更大規(guī)模、更高性能提出要求的自然語言處理 BERT-Large 模型上，H100 的性能比 A100 和壁仞科技 GPU 超出一大截，這主要歸功于其 Transformer Engine。

H100 GPU 預(yù)計在今年年底發(fā)布，后續(xù)還會參加 MLPerf 的訓(xùn)練基準(zhǔn)測試。

此外，在邊緣計算方面，將英偉達(dá) Ampere 架構(gòu)和 Arm CPU 內(nèi)核集成在一塊芯片的英偉達(dá) Orin，運行了所有 MLPerf 基準(zhǔn)測試，是所有低功耗系統(tǒng)級芯片中贏得測試最多的芯片。

值得一提的是，相比今年 4 月在 MLPerf 上首次亮相的成績，英偉達(dá) Orin 芯片的邊緣 AI 推理能效進(jìn)一步提高了 50%。

六大門派，圍攻云端 AI 芯片光明頂

▲ 在能效方面，Orin 邊緣 AI 推理性能提升多達(dá) 50%（圖源：英偉達(dá)）

從英偉達(dá)往屆在 MLPerf 提交的測試結(jié)果，可以看出 AI 軟件帶來的性能提升越來越顯著。自 2020 年 7 月在 MLPerf 上首次亮相以來，得益于 NVIDIA AI 軟件的不斷改進(jìn)，A100 的性能已經(jīng)提升 6 倍。

目前，NVIDIA AI 是唯一能在數(shù)據(jù)中心和邊緣計算中運行所有 MLPerf 推理工作負(fù)載和場景的平臺。通過軟硬協(xié)同優(yōu)化，英偉達(dá) GPU 在數(shù)據(jù)中心及邊緣計算中實現(xiàn) AI 推理加速的成績更加突出。

02. 壁仞科技通用 GPU 參戰(zhàn)

ResNet 和 BERT 模型性能超 A100

壁仞科技今年 8 月剛發(fā)布的通用 GPU 芯片 BR104，亦在 MLPerf 首次公開亮相。

MLPerf 推理榜單分為 Closed（固定任務(wù)）和 Open（開放優(yōu)化）兩類，固定任務(wù)主要考察參測廠商的硬件系統(tǒng)和軟件優(yōu)化的能力，開放優(yōu)化則著重考察參測廠商的 AI 技術(shù)創(chuàng)新力。

此次壁仞科技參加的是數(shù)據(jù)中心場景的固定任務(wù)評測，參評機(jī)型是搭載 8 張壁礪 104-300W 板卡的浪潮 NF5468M6 服務(wù)器，壁礪 104 板卡內(nèi)置 BR104 芯片。壁仞科技提交了 ResNet 和 BERT 99.9% 精度模型的評測，同時包括 Offline 模式和 Server 模式。

六大門派，圍攻云端 AI 芯片光明頂

Offline 模式對應(yīng)數(shù)據(jù)在本地可用的情況，比如在 ResNet-50、BERT 模型中，Offline 模式更為重要；Server 模式的數(shù)據(jù)則來自即時數(shù)據(jù)，數(shù)據(jù)以突發(fā)和間歇的方式在線送達(dá)，比如在 DLRM 中，Server 模式更重要。

據(jù)悉，壁仞科技這次只選擇這兩類模型參評，主要考慮到兩者是目前壁仞科技的目標(biāo)客戶應(yīng)用最廣泛、最重要的模型，特別是 BERT 模型。

六大門派，圍攻云端 AI 芯片光明頂

▲ 壁仞科技 BR104 在 BERT 模型評選中同時拿下離線和在線模式的整機(jī)性能領(lǐng)先（圖源：壁仞科技）

從測試結(jié)果來看，在 BERT 模型的評選中，相較于英偉達(dá)提交的基于 8 張 A100 的機(jī)型，基于 8 張壁仞科技 BR104 的機(jī)型，性能達(dá)到了前者的 1.58 倍。

六大門派，圍攻云端 AI 芯片光明頂

▲ 壁仞 BR104 在 ResNet-50 和 BERT 模型評選中單卡性能超過 A100

總體來看，壁仞科技 8 卡 PCle 解決方案的性能表現(xiàn)，估計會介乎英偉達(dá) 8 卡 A100 與 8 卡 H100 之間。

除了壁仞科技自己提交的 8 卡機(jī)型外，知名服務(wù)器提供商浪潮信息還提交了一款搭載 4 張壁礪 104 板卡的服務(wù)器，這也是浪潮信息首次提交基于國產(chǎn)廠商芯片的服務(wù)器測試成績。

在所有的 4 卡機(jī)型中，浪潮提交的服務(wù)器在 ResNet50（Offline）和 BERT（Offline & Server, 99.9% 精度）兩個模型下，也奪得了全球第一。

六大門派，圍攻云端 AI 芯片光明頂

對于一家初出茅廬、首次推出芯片的初創(chuàng)公司來說，這個成績已經(jīng)非常驚人了。

03.墨芯 S30 奪魁圖像分類單卡算力 95784 FPS 遠(yuǎn)超 H100

另一家中國云端 AI 芯片企業(yè)墨芯人工智能同樣首次參評 MLPerf，而且在圖像分類模型的推理任務(wù)上取得了超過英偉達(dá) H100 的單卡算力表現(xiàn)。

墨芯設(shè)計 AI 芯片英騰處理器（ANTOUM）時采用了自研雙稀疏化技術(shù)來實現(xiàn)底層的芯片架構(gòu)創(chuàng)新，從而兼顧數(shù)據(jù)中心對高性能和高能效比的需求。在今年的 GTIC 2022 全球 AI 芯片峰會上，墨芯人工智能首次向業(yè)內(nèi)全面發(fā)布其首批面向數(shù)據(jù)中心 AI 推理應(yīng)用的高稀疏率計算卡 S4、S10 和 S30，分別為單芯片卡、雙芯片卡和三芯片卡。

六大門派，圍攻云端 AI 芯片光明頂

▲ 墨芯人工智能 S30 計算卡

此次墨芯參加的是開放優(yōu)化類的測試。根據(jù)最新 MLPerf 推理榜單，墨芯 S30 計算卡以 95784FPS 的單卡算力，奪得 ResNet-50 模型算力第一，是 H100 的 1.2 倍、A100 的 2 倍。

在運行 BERT-Large 高精度模型（99.9%）方面，墨芯 S30 雖未戰(zhàn)勝 H100，卻實現(xiàn)了高于 A100 性能 2 倍的成績，S30 單卡算力達(dá) 3837SPS。

六大門派，圍攻云端 AI 芯片光明頂

▲ 運行 ResNet-50 和 BERT-Large 模型時，墨芯 S30 與 A100、H100 的對比（圖源：墨芯人工智能）

值得一提的是，墨芯 S30 采用的是 12nm 制程，而英偉達(dá) H100 采用的是更先進(jìn)的 4nm 制程，能夠在制程工藝存在代際差的情況下追平兩大數(shù)據(jù)中心主流 AI 模型的性能表現(xiàn)，主要得益于墨芯自主研發(fā)的稀疏化算法及架構(gòu)。

MLPerf 的測試要求非常嚴(yán)格，不僅考驗各產(chǎn)品算力，同時設(shè)置精度要求在 99% 以上，以考察 AI 推理精度的高要求對計算性能的影響，也就是說參賽廠商不能以犧牲精度的方式換取算力提升。這亦證明了墨芯能做到在實現(xiàn)稀疏化計算的同時兼顧精度無損。

04. 高能效，高通云端 AI 芯片的王牌

高通早在 2019 年就發(fā)布的首款云端 AI 芯片 Cloud AI 100，繼續(xù)堅挺地參評 MLPerf，與一眾新 AI 加速器同場競技。

從測試成績來看，單論在圖像處理上的高能效，采用 7nm 制程的高通 Cloud AI 100 芯片依然可以笑傲江湖。

六大門派，圍攻云端 AI 芯片光明頂

▲ 高通 Cloud AI 100

MLPerf 最新披露的評測結(jié)果中，富士康、創(chuàng)通聯(lián)達(dá)（Thundercomm）、英業(yè)達(dá)（Inventec）、戴爾、HPE 和聯(lián)想都提交了使用高通 Cloud AI 100 芯片的測試成績?？梢钥闯觯咄ǖ?AI 芯片已經(jīng)在被亞洲云服務(wù)器市場接納。

高通 Cloud AI 100 有兩個版本，專業(yè)版（400 TOPS）或標(biāo)準(zhǔn)版（300 TOPS），都具有高能效的優(yōu)勢。在圖像處理方面，該芯片的每瓦性能比標(biāo)準(zhǔn)部件的 NVIDIA Jetson Orin 高 1 倍，在自然語言處理 BERT-99 模型方面的能效亦是略勝一籌。

六大門派，圍攻云端 AI 芯片光明頂

▲ 高通 Cloud AI 100 在 ResNet-50 及 BERT-99 模型測試中的能效比領(lǐng)先（圖源：高通）

在保持高能效的同時，高通的 AI 芯片并沒有以犧牲高性能為代價，一臺 5 卡服務(wù)器功耗 75W，可實現(xiàn)的性能比 2 卡 A100 服務(wù)器高出近 50%。而單臺 2 卡 A100 服務(wù)器的功耗高達(dá) 300W。

六大門派，圍攻云端 AI 芯片光明頂

▲ 高通 Cloud AI 100 的每瓦性能表現(xiàn)（圖源：高通）

面向邊緣計算，高通 Cloud AI 100 在圖形處理方面展現(xiàn)出的高能效已經(jīng)非常有競爭力，不過大型數(shù)據(jù)中心對芯片的通用性會有更高要求，如果高通想要進(jìn)一步打入云端市場，可能得在下一代云邊 AI 芯片的設(shè)計上擴(kuò)展對推薦引擎等更多主流 AI 模型的支持。

六大門派，圍攻云端 AI 芯片光明頂

▲ 實現(xiàn)邊緣服務(wù)器高能效，不以犧牲高性能為代價（圖源：高通）

05. 韓國首款 AI 芯片亮相對打英偉達(dá)入門級 AI 加速卡

這次 MLPerf 榜單中，我們還看到了在 AI 芯片領(lǐng)域相對缺乏存在感的韓國企業(yè)的身影。

Sapeon X220 是韓國知名科技企業(yè) SK 電訊自主研發(fā)的 AI 芯片，也是韓國第一顆用于數(shù)據(jù)中心的非存儲類商用芯片，能夠高速、低功耗地執(zhí)行 AI 服務(wù)所需的大規(guī)模計算。

六大門派，圍攻云端 AI 芯片光明頂

▲ Sapeon X220 部分參數(shù)

其測試結(jié)果也很有意思。Sapeon X220 搭載于 Supermicro 服務(wù)器上，在數(shù)據(jù)中心推理基準(zhǔn)測試中的性能超過了英偉達(dá)去年年底發(fā)布的入門級 AI 加速卡 A2 GPU。

其中，X220-Compact 的性能比 A2 高 2.3 倍，X220-Enterprise 的性能比 A2 提升 4.6 倍。

能效表現(xiàn)同樣不錯，在基于最大功耗的每瓦性能方面，X220-Compact 的能效是 A2 的 2.2 倍，X220-Enterprise 的能效是 A2 的 2.0 倍。

六大門派，圍攻云端 AI 芯片光明頂

▲ Sapeon X220 系列與英偉達(dá) A2 的性能及能效對比（圖源：SAPEON）

值得一提的是，英偉達(dá) A2 采用的是先進(jìn)的 8nm 制程，而 Sapeon X220 采用的是 28nm 成熟制程。

據(jù)悉，Sapeon 芯片已經(jīng)應(yīng)用在智能音箱、智能視頻安全解決方案、基于 AI 的媒體質(zhì)量優(yōu)化解決方案等應(yīng)用中。今年 SK 電訊還將 AI 芯片業(yè)務(wù)獨立出來，成立了一家名為 SAPEON 的公司。

SAPEON 首席執(zhí)行官 Soojung Ryu 透露說，未來該公司計劃拓展 X220 的各個應(yīng)用領(lǐng)域，有信心在明年下半年用下一代芯片 X330 與競品拉開差距，進(jìn)一步提高性能。

06. 英特爾預(yù)覽下一代服務(wù)器 CPU 阿里倚天 710 CPU 首參評

盡管云端 AI 推理芯片正呈百家爭鳴之勢，但截至目前，服務(wù)器 CPU 仍是 AI 推理市場的主導(dǎo)者。

在此次 MLPerf 榜單中，我們看到僅搭載英特爾至強(qiáng)、阿里自研 CPU 倚天 710 的系統(tǒng)參評，這些系統(tǒng)沒有搭載任何 AI 加速器，可以較真實的反映出這些服務(wù)器 CPU 的 AI 推理加速能力。

在固定任務(wù)榜單中，英特爾提交了一個預(yù)覽版 Sapphire Rapids 2-socket 搭配 PyTorch 軟件的系統(tǒng)，推理性能雖被 H100“虐殺”，但已經(jīng)足夠打敗 A2。畢竟這是一款服務(wù)器 CPU，AI 推理加速能力只是它的加分項，這樣看來英特爾至強(qiáng) CPU 的加速能力已經(jīng)足夠應(yīng)對常規(guī)的 AI 推理任務(wù)需求。

六大門派，圍攻云端 AI 芯片光明頂

在開放優(yōu)化類榜單中，一家名為 NeuralMagic 的初創(chuàng)公司通過提交僅有英特爾至強(qiáng) CPU 的系統(tǒng)，展示了其基于剪枝技術(shù)實現(xiàn)更精細(xì)的軟件，用更少的算力就能實現(xiàn)與其他軟件同等的性能。

六大門派，圍攻云端 AI 芯片光明頂

阿里巴巴亦首次展示了整個集群作為單機(jī)運行的結(jié)果，在總吞吐量上超過其他結(jié)果。其自研倚天 710 CPU 芯片首次出現(xiàn)在 MLPerf 榜單中。

六大門派，圍攻云端 AI 芯片光明頂

另外從各廠商參評這次 MLPerf 的系統(tǒng)配置，我們可以看到，AMD EPYC 服務(wù)器 CPU 在數(shù)據(jù)中心推理應(yīng)用中的存在感越來越高，大有與英特爾至強(qiáng)并駕齊驅(qū)的勢頭。

07. 結(jié)語：英偉達(dá)江湖地位穩(wěn)固國產(chǎn) AI 芯片新勢力發(fā)起沖鋒

總的來看，英偉達(dá)繼續(xù)穩(wěn)定發(fā)揮，霸榜 MLPerf 推理基準(zhǔn)測試，是毫無爭議的大贏家。雖說部分單點性能成績被其他競品趕超，但若論通用性，英偉達(dá) A100 和 H100 依然是能將其他一眾 AI 芯片“按地摩擦”的存在。

目前英偉達(dá)還沒有提交 H100 的推理能效測試數(shù)據(jù)，以及其在訓(xùn)練方面的性能表現(xiàn)，等這些成績出來，H100 預(yù)計會風(fēng)頭更盛。

國產(chǎn) AI 芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端 AI 芯片含光 800 的單卡算力在 2019 年登頂 MLPerf ResNet-50 模型推理測試后，壁仞科技、墨芯也分別通過第三方權(quán)威 AI 基準(zhǔn)測試平臺展示出其 AI 芯片的實測性能實力。

從這次開放優(yōu)化類榜單展示的性能成績，我們看到稀疏性計算已經(jīng)成數(shù)據(jù)中心 AI 推理的一個熱門趨勢，我們期待接下來這類具有創(chuàng)新力的技術(shù)能進(jìn)入固定任務(wù)榜單，通過更精細(xì)、更公平地比較系統(tǒng)實力，進(jìn)一步驗證其落地價值。

隨著參評機(jī)構(gòu)、系統(tǒng)規(guī)模、系統(tǒng)配置的增加和走向多元化，MLPerf 基準(zhǔn)測試正變得越來越復(fù)雜。這些歷屆的榜單結(jié)果，也能反映出全球 AI 芯片的技術(shù)及產(chǎn)業(yè)格局之變遷。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

六大門派，圍攻云端 AI 芯片光明頂

01. H100 王者登場，英偉達(dá)仍然稱雄

02. 壁仞科技通用 GPU 參戰(zhàn)

03.墨芯 S30 奪魁圖像分類單卡算力 95784 FPS 遠(yuǎn)超 H100

04. 高能效，高通云端 AI 芯片的王牌

05. 韓國首款 AI 芯片亮相 對打英偉達(dá)入門級 AI 加速卡

06. 英特爾預(yù)覽下一代服務(wù)器 CPU 阿里倚天 710 CPU 首參評

07. 結(jié)語：英偉達(dá)江湖地位穩(wěn)固 國產(chǎn) AI 芯片新勢力發(fā)起沖鋒

相關(guān)文章

六大門派，圍攻云端 AI 芯片光明頂

01. H100 王者登場，英偉達(dá)仍然稱雄

05. 韓國首款 AI 芯片亮相對打英偉達(dá)入門級 AI 加速卡

07. 結(jié)語：英偉達(dá)江湖地位穩(wěn)固國產(chǎn) AI 芯片新勢力發(fā)起沖鋒