設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

揭秘 ChatGPT 背后天價超算,上萬顆英偉達 A100,燒光微軟數(shù)億美元

新智元 2023/3/14 18:45:11 責編:夢澤

ChatGPT 背后,是微軟超級昂貴的超級計算機,耗資數(shù)億美元,用了英偉達數(shù)萬顆芯片。

ChatGPT 能成為如今火遍全球的頂流模型,少不了背后超強的算力。

數(shù)據(jù)顯示,ChatGPT 的總算力消耗約為 3640PF-days(即假如每秒計算一千萬億次,需要計算 3640 天)。

那么,作為依托的那臺微軟專為 OpenAI 打造的超級計算機,又是如何誕生的呢?

周一,微軟在官博上連發(fā)兩文,親自解密這臺超級昂貴的超級計算機,以及 Azure 的重磅升級 —— 加入成千上萬張英偉達最強的 H100 顯卡以及更快的 InfiniBand 網(wǎng)絡互連技術(shù)。

基于此,微軟也官宣了最新的 ND H100 v5 虛擬機,具體規(guī)格如下:

  • 8 個 NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯(lián)

  • 每個 GPU 有 400 Gb / s 的 NVIDIA Quantum-2 CX7 InfiniBand,每個虛擬機有 3.2Tb / s 的無阻塞胖樹型網(wǎng)絡

  • NVSwitch 和 NVLink 4.0 在每個虛擬機的 8 個本地 GPU 之間具有 3.6TB / s 的雙向帶寬

  • 第四代英特爾至強可擴展處理器

  • PCIE Gen5 到 GPU 互連,每個 GPU 有 64GB / s 帶寬

  • 16 通道 4800MHz DDR5 DIMM

數(shù)億美元撐起來的算力

大約五年前,OpenAI 向微軟提出了一個大膽的想法 —— 建立一個可以永遠改變?nèi)藱C交互方式的人工智能系統(tǒng)。

當時,沒人能想到,這將意味著 AI 可以用純語言創(chuàng)造出人類所描述的任何圖片,人類可以用聊天機器人來寫詩、寫歌詞、寫論文、寫郵件、寫菜單……

為了建立這個系統(tǒng),OpenAI 需要很多算力 —— 可以真正支撐起超大規(guī)模計算的那種。

但問題是,微軟能做到嗎?

畢竟,當時既沒有能滿足 OpenAI 需要的硬件,也無法確定在 Azure 云服務中構(gòu)建這樣龐大的超級計算機會不會直接把系統(tǒng)搞崩。

隨后,微軟便開啟了一段艱難的摸索。

微軟 Azure 高性能計算和人工智能產(chǎn)品負責人 Nidhi Chappell(左)和微軟戰(zhàn)略合作伙伴關(guān)系高級總監(jiān) Phil Waymouth(右)

為了構(gòu)建支持 OpenAI 項目的超級計算機,它斥資數(shù)億美元,在 Azure 云計算平臺上將幾萬個 Nvidia A100 芯片連接在一起,并改造了服務器機架。

此外,為了給 OpenAI 量身打造這個超算平臺,微軟十分盡心,一直在密切關(guān)注著 OpenAI 的需求,隨時了解他們在訓練 AI 時最關(guān)鍵的需要。

這么一個大工程,成本究竟是多少呢?微軟負責云計算和人工智能的執(zhí)行副總裁 Scott Guthrie 不愿透露具體數(shù)目,但他表示,「可能不止」幾億美元。

OpenAI 出的難題

微軟負責戰(zhàn)略合作伙伴關(guān)系的高管 Phil Waymouth 指出,OpenAI 訓練模型所需要的云計算基礎(chǔ)設(shè)施規(guī)模,是業(yè)內(nèi)前所未有的。

呈指數(shù)級增長的網(wǎng)絡 GPU 集群規(guī)模,超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。

微軟之所以下定決心與 OpenAI 合作,是因為堅信,這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史,造出全新的 AI,和全新的編程平臺,為客戶提供切實符合他們利益的產(chǎn)品和服務。

現(xiàn)在看來,這幾億美元顯然沒白花 —— 寶押對了。

在這臺超算上,OpenAI 能夠訓練的模型越來越強大,并且解鎖了 AI 工具令人驚嘆的功能,幾乎開啟人類第四次工業(yè)革命的 ChatGPT,由此誕生。

非常滿意的微軟,在 1 月初又向 OpenAI 狂砸 100 億美元。

可以說,微軟突破 AI 超算界限的雄心,已經(jīng)得到了回報。而這背后體現(xiàn)的,是從實驗室研究,到 AI 產(chǎn)業(yè)化的轉(zhuǎn)變。

目前,微軟的辦公軟件帝國已經(jīng)初具規(guī)模。

ChatGPT 版必應,可以幫我們搜索假期安排;Viva Sales 中的聊天機器人可以幫營銷人員寫郵件;GitHub Copilot 可以幫開發(fā)者續(xù)寫代碼;Azure OpenAI 服務可以讓我們訪問 OpenAI 的大語言模型,還能訪問 Azure 的企業(yè)級功能。

和英偉達聯(lián)手

其實,在去年 11 月,微軟就曾官宣,要與 Nvidia 聯(lián)手構(gòu)建「世界上最強大的 AI 超級計算機之一」,來處理訓練和擴展 AI 所需的巨大計算負載。

這臺超級計算機基于微軟的 Azure 云基礎(chǔ)設(shè)施,使用了數(shù)以萬計個 Nvidia H100 和 A100Tensor Core GPU,及其 Quantum-2 InfiniBand 網(wǎng)絡平臺。

Nvidia 在一份聲明中表示,這臺超級計算機可用于研究和加速 DALL-E 和 Stable Diffusion 等生成式 AI 模型。

隨著 AI 研究人員開始使用更強大的 GPU 來處理更復雜的 AI 工作負載,他們看到了 AI 模型更大的潛力,這些模型可以很好地理解細微差別,從而能夠同時處理許多不同的語言任務。

簡單來說,模型越大,你擁有的數(shù)據(jù)越多,你能訓練的時間越長,模型的準確性就越好。

但是這些更大的模型很快就會到達現(xiàn)有計算資源的邊界。而微軟明白,OpenAI 需要的超級計算機是什么樣子,需要多大的規(guī)模。

這顯然不是說,單純地購買一大堆 GPU 并將它們連接在一起之后,就可以開始協(xié)同工作的東西。

微軟 Azure 高性能計算和人工智能產(chǎn)品負責人 Nidhi Chappell 表示:「我們需要讓更大的模型訓練更長的時間,這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施,你還必須讓它長期可靠地運行?!?/p>

Azure 全球基礎(chǔ)設(shè)施總監(jiān) Alistair Speirs 表示,微軟必須確保它能夠冷卻所有這些機器和芯片。比如,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。

此外,由于所有的機器都是同時啟動的,所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時打開微波爐、烤面包機和吸塵器時可能會發(fā)生的情況,只不過是數(shù)據(jù)中心的版本。

大規(guī)模 AI 訓練

完成這些突破,關(guān)鍵在哪里?

難題就是,如何構(gòu)建、操作和維護數(shù)萬個在高吞吐量、低延遲 InfiniBand 網(wǎng)絡上互連的共置 GPU。

這個規(guī)模,已經(jīng)遠遠超出了 GPU 和網(wǎng)絡設(shè)備供應商測試的范圍,完全是一片未知的領(lǐng)域。沒有任何人知道,在這種規(guī)模下,硬件會不會崩。

微軟 Azure 高性能計算和人工智能產(chǎn)品負責人 Nidhi Chappell 解釋道,在 LLM 的訓練過程中,涉及到的大規(guī)模計算通常會被劃分到一個集群中的數(shù)千個 GPU 上。

在被稱為 allreduce 的階段,GPU 之間會互相交換它們所做工作的信息。此時就需要通過 InfiniBand 網(wǎng)絡進行加速,從而讓 GPU 在下一塊計算開始之前完成。

Nidhi Chappell 表示,由于這些工作跨越了數(shù)千個 GPU,因此除了要確?;A(chǔ)設(shè)施的可靠外,還需要大量很多系統(tǒng)級優(yōu)化才能實現(xiàn)最佳的性能,而這是經(jīng)過許多代人的經(jīng)驗總結(jié)出來的。

所謂系統(tǒng)級優(yōu)化,其中就包括能夠有效利用 GPU 和網(wǎng)絡設(shè)備的軟件。

在過去的幾年里,微軟已經(jīng)開發(fā)出了這種技術(shù),在使訓練具有幾十萬億個參數(shù)的模型的能力得到增長的同時,降低了訓練和在生產(chǎn)中提供這些模型的資源要求和時間。

Waymouth 指出,微軟和合作伙伴也一直在逐步增加 GPU 集群的容量,發(fā)展 InfiniBand 網(wǎng)絡,看看他們能在多大程度上推動保持 GPU 集群運行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施,包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機。

微軟 AI 平臺公司副總裁 Eric Boyd 表示,這種為大型語言模型訓練和下一波 AI 創(chuàng)新而優(yōu)化的超算能力,已經(jīng)可以在 Azure 云服務中直接獲得。

并且微軟通過與 OpenAI 的合作,積累了大量經(jīng)驗,當其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時,微軟也可以提供。

現(xiàn)在,微軟的 Azure 數(shù)據(jù)中心已經(jīng)覆蓋了全球 60 多個地區(qū)。

全新虛擬機:ND H100 v5

在上面這個基礎(chǔ)架構(gòu)上,微軟一直在繼續(xù)改進。

今天,微軟就官宣了全新的可大規(guī)模擴展虛擬機,這些虛擬機集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡。

通過虛擬機,微軟可以向客戶提供基礎(chǔ)設(shè)施,根據(jù)任何 AI 任務的規(guī)模進行擴展。據(jù)微軟稱,Azure 的新 ND H100 v5 虛擬機為開發(fā)者提供卓越的性能,同時調(diào)用數(shù)千個 GPU。

參考資料:

  • https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,微軟超級計算機

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知