設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全球首例:世界最大芯片解鎖“人腦級”AI 模型,集群頂配 1.63 億核心

智東西 2021/8/25 14:32:55 責(zé)編:懶貓

8 月 25 日報道,那個打造出世界最大計算芯片的硅谷明星創(chuàng)企 Cerebras Systems,正將“做大做強(qiáng)”的戰(zhàn)略貫徹到極致!

今日凌晨,Cerebras Systems 宣布推出世界上第一個人類大腦規(guī)模的 AI 解決方案,一臺 CS-2 AI 計算機(jī)可支持超過 120 萬億參數(shù)規(guī)模的訓(xùn)練。相比之下,人類大腦大約有 100 萬億個突觸。

此外,Cerebras 還實(shí)現(xiàn)了 192 臺 CS-2 AI 計算機(jī)近乎線性的擴(kuò)展,從而打造出包含高達(dá) 1.63 億個核心的計算集群。

Cerebras 成立于 2016 年,迄今在 14 個國家擁有超過 350 位工程師,此前 Cerebras 推出的世界最大計算芯片 WSE 和 WSE-2 一度震驚業(yè)界。

WSE-2 采用 7nm 工藝,是一個面積達(dá) 46225 平方毫米的單晶圓級芯片,擁有 2.6 萬億個晶體管和 85 萬個 AI 優(yōu)化核,無論是核心數(shù)還是片上內(nèi)存容量均遠(yuǎn)高于迄今性能最強(qiáng)的 GPU。

WSE-2 被集成在 Cerebras CS-2 AI 計算機(jī)中。隨著近年業(yè)界超大規(guī)模 AI 模型突破 1 萬億參數(shù),小型集群難以支撐單個模型的高速訓(xùn)練。

而 Cerebras 最新公布的成果,將單臺 CS-2 機(jī)器可支持的神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)模,擴(kuò)大至現(xiàn)有最大模型的 100 倍 —— 達(dá)到 120 萬億參數(shù)。

在國際芯片架構(gòu)頂會 Hot Chips 上,Cerebras 聯(lián)合創(chuàng)始人兼首席硬件架構(gòu)師 Sean Lie 詳細(xì)展示了實(shí)現(xiàn)這一突破的新技術(shù)組合,包括 4 項創(chuàng)新:

(1)Cerebras Weight Streaming:一種新的軟件執(zhí)行架構(gòu),首次實(shí)現(xiàn)在芯片外存儲模型參數(shù)的能力,同時提供像片上一樣的訓(xùn)練和推理性能。這種新的執(zhí)行模型分解了計算和參數(shù)存儲,使得擴(kuò)展集群大小和速度更加獨(dú)立靈活,并消除了大型集群往往面臨的延遲和內(nèi)存帶寬問題,極大簡化工作負(fù)載分布模型,使得用戶無需更改軟件,即可從使用 1 臺 CS-2 擴(kuò)展到 192 臺 CS-2。

(2)Cerebras MemoryX:一種內(nèi)存擴(kuò)展技術(shù),為 WSE-2 提供高達(dá) 2.4PB 的片外高性能存儲,能保持媲美片上的性能。借助 MemoryX,CS-2 可以支持高達(dá) 120 萬億參數(shù)的模型。

(3)Cerebras SwarmX:是一種高性能、AI 優(yōu)化的通信結(jié)構(gòu),將片上結(jié)構(gòu)擴(kuò)展至片外,使 Cerebras 能夠連接多達(dá) 192 臺 CS-2 的 1.63 億個 AI 優(yōu)化核,協(xié)同工作來訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)。

(4)Selectable Sparsity:一種動態(tài)稀疏選擇技術(shù),使用戶能夠在模型中選擇權(quán)重稀疏程度,并直接減少 FLOP 和解決時間。權(quán)重稀疏在機(jī)器學(xué)習(xí)研究領(lǐng)域一直頗具挑戰(zhàn)性,因?yàn)樗?GPU 上效率極低。該技術(shù)使 CS-2 能夠加速工作,并使用包括非結(jié)構(gòu)化和動態(tài)權(quán)重稀疏性在內(nèi)的各種可用稀疏性類型在更短的時間內(nèi)生成答案。

Cerebras 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 稱這推動了行業(yè)的發(fā)展。阿貢國家實(shí)驗(yàn)室副主任 Rick Stevens 亦肯定這一發(fā)明,認(rèn)為這將是我們第一次能夠探索大腦規(guī)模的模型,為研究和見解開辟廣闊的新途徑。

一、Weight Streaming:存算分離,實(shí)現(xiàn)片外存儲模型參數(shù)

使用大型集群解決 AI 問題的最大挑戰(zhàn)之一,是為特定的神經(jīng)網(wǎng)絡(luò)設(shè)置、配置和優(yōu)化它們所需的復(fù)雜性和時間。軟件執(zhí)行架構(gòu) Cerebras Weight Streaming 恰恰能降低對集群系統(tǒng)編程的難度。

Weight Streaming 建立在 WSE 超大尺寸的基礎(chǔ)上,其計算和參數(shù)存儲完全分離。通過與最高配置 2.4PB 的存儲設(shè)備 MemoryX 結(jié)合,單臺 CS-2 可支持運(yùn)行擁有 120 萬億個參數(shù)的模型。

參與測試的 120 萬億參數(shù)神經(jīng)網(wǎng)絡(luò)由 Cerebras 內(nèi)部開發(fā),不是已公開發(fā)布的神經(jīng)網(wǎng)絡(luò)。

在 Weight Streaming 中,模型權(quán)重存在中央芯片外存儲位置,流到晶圓片上,用于計算神經(jīng)網(wǎng)絡(luò)的每一層。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的 delta 通道上,梯度從晶圓流到中央存儲區(qū) MemoryX 中用于更新權(quán)重。

與 GPU 不同,GPU 的片上內(nèi)存量很小,需要跨多個芯片分區(qū)大型模型,而 WSE-2 足夠大,可以適應(yīng)和執(zhí)行超大規(guī)模的層,而無需傳統(tǒng)的塊或分區(qū)來分解。

這種無需分區(qū)就能適應(yīng)片上內(nèi)存中每個模型層的能力,可以被賦予相同的神經(jīng)網(wǎng)絡(luò)工作負(fù)載映射,并獨(dú)立于集群中所有其他 CS-2 對每個層進(jìn)行相同的計算。

這帶來的好處是,用戶無需進(jìn)行任何軟件更改,就能很方便地將模型從運(yùn)行在單臺 CS-2 上,擴(kuò)展到在任意大小的集群上。也就是說,在大量 CS-2 系統(tǒng)集群上運(yùn)行 AI 模型,編程就像在單臺 CS-2 上運(yùn)行模型一樣。

Cambrian AI 創(chuàng)始人兼首席分析師 Karl Freund 評價道:“Weight Streaming 的執(zhí)行模型非常簡潔、優(yōu)雅,允許在 CS-2 集群難以置信的計算資源上進(jìn)行更簡單的工作分配。通過 Weight Streaming,Cerebras 消除了我們今天在構(gòu)建和高效使用巨大集群方面所面臨的所有復(fù)雜性,推動行業(yè)向前發(fā)展,我認(rèn)為這將是一場變革之旅?!?/p>

二、MemoryX:實(shí)現(xiàn)百萬億參數(shù)模型

擁有 100 萬億個參數(shù)的人腦規(guī)模級 AI 模型,大約需要 2PB 字節(jié)的內(nèi)存才能存儲。

前文提及模型參數(shù)能夠在片外存儲并高效地流至 CS-2,實(shí)現(xiàn)接近片上的性能,而存儲神經(jīng)網(wǎng)絡(luò)參數(shù)權(quán)重的關(guān)鍵設(shè)施,即是 Cerebras MemoryX。

MemoryX 是 DRAM 和 Flash 的組合,專為支持大型神經(jīng)網(wǎng)絡(luò)運(yùn)行而設(shè)計,同時也包含精確調(diào)度和執(zhí)行權(quán)重更新的智能。

其架構(gòu)具有可擴(kuò)展性,支持從 4TB 至 2.4PB 的配置,支持 2000 億至 120 萬億的參數(shù)規(guī)模。

三、SwarmX:幾乎線性擴(kuò)展性能,支持 192 臺 CS-2 互連

雖然一臺 CS-2 機(jī)器就可以存儲給定層的所有參數(shù),但 Cerebras 還提議用一種高性能互連結(jié)構(gòu)技術(shù) SwarmX,來實(shí)現(xiàn)數(shù)據(jù)并行性。

該技術(shù)通過將 Cerebras 的片上結(jié)構(gòu)擴(kuò)展至片外,擴(kuò)展了 AI 集群的邊界。

從歷史上看,更大的 AI 集群會帶來顯著的性能和功率損失。在計算方面,性能呈亞線性增長,而功率和成本呈超線性增長。隨著越來越多的圖形處理器被添加到集群中,每個處理器對解決問題的貢獻(xiàn)越來越小。

SwarmX 結(jié)構(gòu)既做通信,也做計算,能使集群實(shí)現(xiàn)接近線性的性能擴(kuò)展。這意味著如果擴(kuò)展至 16 個系統(tǒng),訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度接近提高 16 倍。其結(jié)構(gòu)獨(dú)立于 MemoryX 進(jìn)行擴(kuò)展,每個 MemoryX 單元可用于任意數(shù)量的 CS-2。

在這種完全分離的模式下,SwarmX 結(jié)構(gòu)支持從 2 臺 CS-2 擴(kuò)展到最多 192 臺,由于每臺 CS-2 提供 85 萬個 AI 優(yōu)化核,因此將支持多達(dá) 1.63 億個 AI 優(yōu)化核的集群。

Feldman 說,CS-2 的利用率要高得多。其他方法的利用率在 10%~20% 之間,而 Cerebras 在最大網(wǎng)絡(luò)上的利用率在 70%~80% 之間?!敖裉烀總€ CS2 都取代了數(shù)百個 GPU,我們現(xiàn)在可以用集群方法取代數(shù)千個 GPU?!?/p>

四、Selectable Sparsity:動態(tài)稀疏提升計算效率

稀疏性對提高計算效率至為關(guān)鍵。隨著 AI 社區(qū)努力應(yīng)對訓(xùn)練大型模型的成本呈指數(shù)級增長,用稀疏性及其他算法技術(shù)來減少將模型訓(xùn)練為最先進(jìn)精度所需的計算 FLOP 愈發(fā)重要。

現(xiàn)有稀疏性研究已經(jīng)能帶來 10 倍的速度提升。

為了加速訓(xùn)練,Cerebras 提出一種新的稀疏方法 Selectable Sparsity,來減少找到解決方案所需的計算工作量,從而縮短了應(yīng)答時間。

Cerebras WSE 基于一種細(xì)粒度的數(shù)據(jù)流架構(gòu),專為稀疏計算而設(shè)計,其 85 萬個 AI 優(yōu)化核能夠單獨(dú)忽略 0,僅對非 0 數(shù)據(jù)進(jìn)行計算。這是其他架構(gòu)無法做到的。

在神經(jīng)網(wǎng)絡(luò)中,稀疏有多種類型。稀疏性可以存在于激活和參數(shù)中,可以是結(jié)構(gòu)化或非結(jié)構(gòu)化。

Cerebras 架構(gòu)特有的數(shù)據(jù)流調(diào)度和巨大的內(nèi)存帶寬,使此類細(xì)粒度處理能加速動態(tài)稀疏、非結(jié)構(gòu)化稀疏等一切形式的稀疏。結(jié)果是,CS-2 可以選擇和撥出稀疏,以產(chǎn)生特定程度的 FLOP 減少,從而減少應(yīng)答時間。

結(jié)語:新技術(shù)組合讓集群擴(kuò)展不再復(fù)雜

大型集群歷來受設(shè)置和配置挑戰(zhàn)的困擾,準(zhǔn)備和優(yōu)化在大型 GPU 集群上運(yùn)行的神經(jīng)網(wǎng)絡(luò)需要更多時間。為了在 GPU 集群上實(shí)現(xiàn)合理的利用率,研究人員往往需要人工對模型進(jìn)行分區(qū)、管理內(nèi)存大小和帶寬限制、進(jìn)行額外的超參數(shù)和優(yōu)化器調(diào)優(yōu)等復(fù)雜而重復(fù)的操作。

而通過將 Weight Streaming、MemoryX 和 SwarmX 等技術(shù)相結(jié)合,Cerebras 簡化了大型集群的構(gòu)建過程。它開發(fā)了一個全然不同的架構(gòu),完全消除了擴(kuò)展的復(fù)雜性。由于 WSE-2 足夠大,無需在多臺 CS-2 上劃分神經(jīng)網(wǎng)絡(luò)的層,即便是當(dāng)今最大的網(wǎng)絡(luò)層也可以映射到單臺 CS-2。

Cerebras 集群中的每臺 CS-2 計算機(jī)將有相同的軟件配置,添加另一臺 CS-2 幾乎不會改變?nèi)魏喂ぷ鞯膱?zhí)行。因此,在數(shù)十臺 CS-2 上運(yùn)行神經(jīng)網(wǎng)絡(luò)與在單個系統(tǒng)上運(yùn)行在研究人員看來是一樣的,設(shè)置集群就像為單臺機(jī)器編譯工作負(fù)載并將相同的映射應(yīng)用到所需集群大小的所有機(jī)器一樣簡單。

總體來說,Cerebras 的新技術(shù)組合旨在加速運(yùn)行超大規(guī)模 AI 模型,不過就目前 AI 發(fā)展進(jìn)程來看,全球能用上這種集群系統(tǒng)的機(jī)構(gòu)預(yù)計還很有限。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知