集成 2.6 萬(wàn)億個(gè) 7nm 晶體管，世界最大 AI 芯片打破單設(shè)備訓(xùn)練大模型記錄

雷峰網(wǎng) 2022/6/23 19:32:52 責(zé)編：長(zhǎng)河

評(píng)論：

以造出世界上最大加速器芯片 CS-2 Wafer Scale Engine 聞名的公司 Cerebras 昨日宣布他們已經(jīng)在利用“巨芯”進(jìn)行人工智能訓(xùn)練上走出了重要的一步。該公司訓(xùn)練出了單芯片上全世界最大的 NLP（自然語(yǔ)言處理）AI 模型。

該模型具有 20 億個(gè)參數(shù)，基于 CS-2 芯片進(jìn)行訓(xùn)練。這塊全世界最大的加速器芯片采用 7nm 制程工藝，由一整塊方形的晶圓刻蝕而成。它的大小數(shù)百倍于主流芯片，具有 15KW 的功率。它集成了 2.6 萬(wàn)億個(gè) 7nm 晶體管，封裝了 850000 個(gè)內(nèi)核和 40GB 內(nèi)存。

世界最大AI芯片打破單設(shè)備訓(xùn)練大模型記錄，Cerebras要「殺死」GPU

▲ 圖 1 CS-2 Wafer Scale Engine 芯片

單芯片訓(xùn)練 AI 大模型新紀(jì)錄

NLP 模型的開(kāi)發(fā)是人工智能中的一個(gè)重要領(lǐng)域。利用 NLP 模型，人工智能可以“理解”文字含義，并進(jìn)行相應(yīng)的動(dòng)作。OpenAI 的 DALL.E 模型就是一個(gè)典型的 NLP 模型。這個(gè)模型可以將使用者的輸入的文字信息轉(zhuǎn)化為圖片輸出。

比如當(dāng)使用者輸入“牛油果形狀的扶手椅”后，AI 就會(huì)自動(dòng)生成若干與這句話對(duì)應(yīng)的圖像。

世界最大AI芯片打破單設(shè)備訓(xùn)練大模型記錄，Cerebras要「殺死」GPU

▲ 圖：AI 接收信息后生成的“牛油果形狀扶手椅”圖片

不止于此，該模型還能夠使 AI 理解物種、幾何、歷史時(shí)代等復(fù)雜的知識(shí)。

但要實(shí)現(xiàn)這一切并不容易，NLP 模型的傳統(tǒng)開(kāi)發(fā)具有極高的算力成本和技術(shù)門(mén)檻。

實(shí)際上，如果只討論數(shù)字，Cerebras 開(kāi)發(fā)的這一模型 20 億的參數(shù)量在同行的襯托下，顯得有些平平無(wú)奇。

前面提到的 DALL.E 模型具有 120 億個(gè)參數(shù)，而目前最大的模型是 DeepMind 于去年年底推出的 Gopher，具有 2800 億個(gè)參數(shù)。

但除去驚人的數(shù)字外，Cerebras 開(kāi)發(fā)的 NLP 還有一個(gè)巨大的突破：它降低了 NLP 模型的開(kāi)發(fā)難度。

「巨芯」如何打敗 GPU？

按照傳統(tǒng)流程，開(kāi)發(fā) NLP 模型需要開(kāi)發(fā)者將巨大的 NLP 模型切分若干個(gè)功能部分，并將他們的工作負(fù)載分散到成百上千個(gè)圖形處理單元上。

數(shù)以千百計(jì)的圖形處理單元對(duì)廠商來(lái)說(shuō)意味著巨大的成本。

技術(shù)上的困難也同樣使廠商們痛苦不堪。

切分模型是一個(gè)定制的問(wèn)題，每個(gè)神經(jīng)網(wǎng)絡(luò)、每個(gè) GPU 的規(guī)格、以及將他們連接（或互聯(lián)）在一起的網(wǎng)絡(luò)都是獨(dú)一無(wú)二的，并且不能跨系統(tǒng)移植。

廠商必須在第一次訓(xùn)練前將這些因素統(tǒng)統(tǒng)考慮清楚。

這項(xiàng)工作極其復(fù)雜，有時(shí)候甚至需要幾個(gè)月的時(shí)間才能完成。

Cerebras 表示這是 NLP 模型訓(xùn)練中“最痛苦的方面之一”。只有極少數(shù)公司擁有開(kāi)發(fā) NLP 所必要的資源和專業(yè)知識(shí)。對(duì)于人工智能行業(yè)中的其他公司而言，NLP 的訓(xùn)練則太昂貴、太耗時(shí)且無(wú)法使用。

但如果單個(gè)芯片就能夠支持 20 億個(gè)參數(shù)的模型，就意味著不需要使用海量的 GPU 分散訓(xùn)練模型的工作量。這可以為廠商節(jié)省數(shù)千個(gè) GPU 的訓(xùn)練成本和相關(guān)的硬件、擴(kuò)展要求。同時(shí)這也使廠商不必經(jīng)歷切分模型并將其工作負(fù)載分配給數(shù)千個(gè) GPU 的痛苦。

Cerebras 也并未僅僅執(zhí)拗于數(shù)字，評(píng)價(jià)一個(gè)模型的好壞，參數(shù)的數(shù)量并不是唯一標(biāo)準(zhǔn)。

比起希望誕生于“巨芯”上的模型“努力”，Cerebras 更希望的是模型“聰明”。

之所以 Cerebras 能夠在參數(shù)量上取得爆炸式增長(zhǎng)，是因?yàn)槔昧藱?quán)重流技術(shù)。這項(xiàng)技術(shù)可以將計(jì)算和內(nèi)存的占用量解耦，并允許將內(nèi)存擴(kuò)展到足以存儲(chǔ) AI 工作負(fù)載中增加的任何數(shù)量的參數(shù)。

由于這項(xiàng)突破，設(shè)置模型的時(shí)間從幾個(gè)月減少到了幾分鐘。并且開(kāi)發(fā)者在 GPT-J 和 GPT-Neo 等型號(hào)之間“只需幾次按鍵”就可以完成切換。這讓 NLP 的開(kāi)發(fā)變得更加簡(jiǎn)單。

這使得 NLP 領(lǐng)域出現(xiàn)了新的變化。

正如 Intersect360 Research 首席研究官 Dan Olds 對(duì) Cerebras 取得成就的評(píng)價(jià)：“Cerebras 能夠以具有成本效益、易于訪問(wèn)的方式將大型語(yǔ)言模型帶給大眾，這為人工智能開(kāi)辟了一個(gè)激動(dòng)人心的新時(shí)代?！?/p>

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

集成 2.6 萬(wàn)億個(gè) 7nm 晶體管，世界最大 AI 芯片打破單設(shè)備訓(xùn)練大模型記錄

單芯片訓(xùn)練 AI 大模型新紀(jì)錄

「巨芯」如何打敗 GPU？

相關(guān)文章

集成 2.6 萬(wàn)億個(gè) 7nm 晶體管，世界最大 AI 芯片打破單設(shè)備訓(xùn)練大模型記錄