設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

寒武紀(jì)官方詳解云端 AI 芯片思元 370:采用新一代智能處理器架構(gòu) MLUarch03

2021/11/3 18:46:56 來(lái)源:IT之家 作者:瀟公子 責(zé)編:瀟公子

IT之家 11 月 3 日消息,今天,寒武紀(jì)發(fā)布第三代云端 AI 芯片思元 370、基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4、全新升級(jí)的 Cambricon Neuware 軟件棧。

▲ 寒武紀(jì)第三代云端 AI 芯片思元 370

IT之家獲悉,基于 7nm 制程工藝,思元 370 是寒武紀(jì)首款采用 chiplet(芯粒)技術(shù)的 AI 芯片,集成了 390 億個(gè)晶體管,最大算力高達(dá) 256TOPS (INT8),是寒武紀(jì)第二代產(chǎn)品思元 270 算力的 2 倍。

憑借寒武紀(jì)最新智能芯片架構(gòu) MLUarch03,相較于峰值算力的提升,思元 370 實(shí)測(cè)性能表現(xiàn)更為優(yōu)秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長(zhǎng))實(shí)測(cè)性能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長(zhǎng))實(shí)測(cè)性能與同尺寸主流 GPU 相當(dāng),能效則大幅領(lǐng)先。

▲ 寒武紀(jì) MLU370-S4(左)與 MLU370-X4 加速卡

思元 370 也是國(guó)內(nèi)第一顆支持 LPDDR5 內(nèi)存的云端 AI 芯片,內(nèi)存帶寬是上一代產(chǎn)品的 3 倍,訪存能效達(dá) GDDR6 的 1.5 倍。

同時(shí),寒武紀(jì)全新升級(jí)了 Cambricon Neuware 軟件棧,新增推理加速引擎 MagicMind,實(shí)現(xiàn)訓(xùn)推一體,顯著提升了開發(fā)部署的效率,降低用戶的學(xué)習(xí)成本、開發(fā)成本和運(yùn)營(yíng)成本。

寒武紀(jì)發(fā)布了新一代智能處理器架構(gòu) MLUarch03,擁有新一代張量運(yùn)算單元,內(nèi)置 Supercharger 模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時(shí)間;片上通訊帶寬是上一代 MLUarch02 的 2 倍、片上共享緩存容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完備,更高效且向前兼容。

▲ Supercharger 和多算子硬件融合技術(shù)

有 7nm 先進(jìn)工藝和全新 MLUarch03 架構(gòu)的加持,思元 370 芯片算力最高可達(dá) 256TOPS (INT8),是上一代產(chǎn)品思元 270 算力的 2 倍。相較于峰值算力的提升,思元 370 在實(shí)測(cè)性能和能效方面的表現(xiàn)更為優(yōu)秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長(zhǎng))實(shí)測(cè)性能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長(zhǎng))實(shí)測(cè)性能與同尺寸主流 GPU 相當(dāng),能效則大幅領(lǐng)先。

▲ 7nm 先進(jìn)工藝和全新 MLUarch03 架構(gòu)加持,

思元 370 實(shí)測(cè)性能和實(shí)測(cè)能效超市場(chǎng)主流 GPU 產(chǎn)品

* 測(cè)試環(huán)境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù):ResNet-50 來(lái)自于相關(guān)產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3 均取自實(shí)測(cè)最大吞吐性能。

思元 370 全面加強(qiáng)了 FP16、BF16 以及 FP32 的浮點(diǎn)算力,同時(shí)支持推理和訓(xùn)練任務(wù)。此外,思元 370 還是國(guó)內(nèi)第一顆支持 LPDDR5 的云端 AI 芯片,內(nèi)存帶寬是上一代產(chǎn)品的 3 倍,訪存能效達(dá) GDDR6 的 1.5 倍。

▲ 寒武紀(jì)智能芯片架構(gòu)演進(jìn)

思元 370 采用 chiplet(芯粒)技術(shù),在一顆芯片中封裝 2 顆 AI 計(jì)算芯粒(MLU-Die),每一個(gè) MLU-Die 具備獨(dú)立的 AI 計(jì)算單元、內(nèi)存、IO 以及 MLU-Fabric 控制和接口,通過(guò) MLU-Fabric 保證兩個(gè) MLU-Die 間的高速通訊,可以通過(guò)不同 MLU-Die 組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場(chǎng)景的高性價(jià)比 AI 芯片。

▲ 思元 370 采用 chiplet 技術(shù),可實(shí)現(xiàn)不同算力、內(nèi)存和編解碼器的組合

MLU-Fabric 是實(shí)現(xiàn)芯粒技術(shù)的關(guān)鍵所在。它為兩個(gè) MLU-Die 提供低功耗、低延時(shí)和超高帶寬的互聯(lián),支持芯片上實(shí)現(xiàn)統(tǒng)一的內(nèi)存獲取和地址映射,創(chuàng)建虛擬通路避免進(jìn)程死鎖,支持?jǐn)?shù)據(jù)校驗(yàn)錯(cuò)誤發(fā)生時(shí)進(jìn)行數(shù)據(jù)重傳,保證數(shù)據(jù)準(zhǔn)確性。

得益于芯粒技術(shù),思元 370 可通過(guò)不同的組合為客戶提供更多樣化的產(chǎn)品選擇,此次寒武紀(jì)發(fā)布了兩款加速卡,未來(lái)還將推出更多基于思元 370 的產(chǎn)品。

MagicMind 是寒武紀(jì)全新打造的推理加速引擎,也是業(yè)界首個(gè)基于 MLIR 圖編譯技術(shù)達(dá)到商業(yè)化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自動(dòng)后端代碼生成及優(yōu)化。在 MLU、GPU、CPU 訓(xùn)練好的算法模型上,借助 MagicMind,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上,并獲得頗具競(jìng)爭(zhēng)力的性能。

MagicMind 的優(yōu)勢(shì)不僅在于可以提供極致的性能、可靠的精度以及簡(jiǎn)潔的編程接口,讓用戶能夠?qū)W⒂跇I(yè)務(wù)本身,無(wú)需理解芯片更多底層細(xì)節(jié)就可實(shí)現(xiàn)模型的快速高效部署,MagicMind 插件化的設(shè)計(jì)還可以滿足在性能或功能上追求差異化競(jìng)爭(zhēng)力的客戶需求。

▲ 推理加速引擎 MagicMind 是寒武紀(jì)軟件棧 Cambricon Neuware 全新升級(jí)的重要組成部分

為了加快用戶端到端業(yè)務(wù)落地的速度,減少模型訓(xùn)練研發(fā)到模型部署之間的繁瑣流程,寒武紀(jì)的統(tǒng)一基礎(chǔ)軟件平臺(tái) Cambricon Neuware 整合了訓(xùn)練和推理的全部底層軟件棧,包括底層驅(qū)動(dòng)、運(yùn)行時(shí)庫(kù)、算子庫(kù)以及工具鏈等,將 MagicMind 和深度學(xué)習(xí)框架 Tensorflow,Pytorch 深度融合,實(shí)現(xiàn)訓(xùn)推一體。依托于訓(xùn)推一體,在寒武紀(jì)全系列計(jì)算平臺(tái)上,從云端到邊緣端,用戶均可以無(wú)縫地完成從模型訓(xùn)練到推理部署的全部流程,進(jìn)行靈活的訓(xùn)練推理業(yè)務(wù)混布和潮汐式的業(yè)務(wù)切換,可快速響應(yīng)業(yè)務(wù)變化,提升算力利用率,降低運(yùn)營(yíng)成本。

在通用性方面,Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自適應(yīng)精度訓(xùn)練等多種訓(xùn)練方式并提供靈活高效的訓(xùn)練工具,高性能算子庫(kù)已完整覆蓋視覺、語(yǔ)音、自然語(yǔ)言處理和搜索推薦等典型深度學(xué)習(xí)應(yīng)用,可滿足用戶對(duì)于算子覆蓋率以及模型精度的需求。

全新推理加速引擎 MagicMind 和訓(xùn)推一體特性,將為用戶帶來(lái)更為便捷、高效的開發(fā)體驗(yàn),大幅降低學(xué)習(xí)成本、開發(fā)成本和運(yùn)營(yíng)成本。

思元 370 升級(jí)了視頻圖像編解碼單元,可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量,支持更復(fù)雜、更繁重、低延時(shí)要求的計(jì)算機(jī)視覺任務(wù)。

解碼方面,思元 370 集成了強(qiáng)大的媒體性能,可支持 132 路 1080p 視頻解碼或 10 路 8K 視頻解碼。編碼方面,全新編碼器通過(guò)靈活的碼率優(yōu)化(RDO)控制、多參考幀、二次編碼等特性組合,在相同圖像質(zhì)量(全高清視頻 PSNR)的情況下比上一代產(chǎn)品節(jié)省 42% 帶寬,有效降低帶寬成本。

▲ 思元 370 視頻編碼質(zhì)量顯著提升

* 測(cè)試環(huán)境:

MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

視頻內(nèi)容:BQTerrace_1920x1080_60.yuv

寒武紀(jì)高在思元 370 芯片內(nèi)置安全模塊,切實(shí)保障用戶信息安全。思元 370 是寒武紀(jì)第一顆支持國(guó)內(nèi)外主流加密標(biāo)準(zhǔn)的云端芯片,支持用戶數(shù)據(jù)、深度學(xué)習(xí)模型的加解密以及計(jì)算結(jié)果的加密輸出,通過(guò)信任根的方式,保障 AI 芯片在啟動(dòng)及運(yùn)行過(guò)程中加載的所有代碼的安全性,還支持遠(yuǎn)程認(rèn)證,用戶可在業(yè)務(wù)運(yùn)行過(guò)程中遠(yuǎn)程驗(yàn)證 AI 環(huán)境安全性。通過(guò)多方面的安全特性,思元 370 系列產(chǎn)品將更好地確保用戶 AI 業(yè)務(wù)安全。

▲ 安全啟動(dòng)驗(yàn)證過(guò)程

此次發(fā)布中,兩款基于思元 370 的加速卡正式亮相:高密度、半高半長(zhǎng)、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全長(zhǎng)、功耗 150W 的 MLU370-X4 智能加速卡。與上一代產(chǎn)品相比,370 系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。例如,對(duì)標(biāo)準(zhǔn) ResNet-50v1 進(jìn)行軟件定制優(yōu)化后,MLU370-X4 加速卡性能高達(dá) 30204fps。

▲ 寒武紀(jì) MLU370-S4 加速卡

在 Cambricon Neuware SDK 上實(shí)測(cè),在常用的 4 個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)模型上,MLU370-S4 加速卡的性能平均接近市場(chǎng)主流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 優(yōu)勢(shì)更為明顯,處理相同 AI 任務(wù)相較于 70W GPU 用電量減少 50% 以上,將有力地幫助用戶實(shí)現(xiàn)“雙碳”目標(biāo)。

▲ 相比主流同尺寸 GPU 產(chǎn)品,

MLU370-S4 加速卡性能優(yōu)勢(shì)明顯

* 測(cè)試環(huán)境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù)來(lái)自于相關(guān)產(chǎn)品官網(wǎng)。

MLU370-S4 加速卡在解碼方面具有強(qiáng)勁競(jìng)爭(zhēng)力,相較于同尺寸 GPU,可提供 3 倍的解碼能力和 1.5 倍的編碼能力??傮w而言,MLU370-S4 加速卡的能效出色,體積小巧,可在服務(wù)器中實(shí)現(xiàn)高密度部署。

▲ 寒武紀(jì) MLU370-X4 加速卡

MLU370-X4 加速卡的優(yōu)勢(shì)則表現(xiàn)為高性能,算力可達(dá) 256TOPS (INT8),加強(qiáng)了 FP16、FP32 的計(jì)算性能,新增 BF16 計(jì)算類型。

在 Cambricon Neuware SDK 上實(shí)測(cè),常用的 4 個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)模型中,MLU370-X4 加速卡與市場(chǎng)主流 150W GPU 相比,性能表現(xiàn) 2 項(xiàng)持平 2 項(xiàng)更優(yōu),實(shí)測(cè)能效則為 GPU 的 2 倍。比如 YOLOv3 網(wǎng)絡(luò)中,MLU370-X4 的性能是 150W GPU 性能的 1.5 倍,能效為 GPU 的 2.5 倍。

▲ 相比主流 GPU 產(chǎn)品,MLU370-X4 性能領(lǐng)先

* 測(cè)試環(huán)境:

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù):ResNet-50 來(lái)自于相關(guān)產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3 均取自實(shí)測(cè)最大吞吐性能。

▲ MLU370-S4、MLU370-X4 加速卡規(guī)格

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:芯片,寒武紀(jì),思元370

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知