IT之家 5 月 29 日消息,英偉達(dá)今日在 2023 臺(tái)北電腦展大會(huì)上發(fā)布了多項(xiàng)重磅消息,其中最引人注目的是其 Grace Hopper 超級芯片已經(jīng)全面投產(chǎn)。這些芯片是英偉達(dá)新推出的 DGX GH200 人工智能超級計(jì)算平臺(tái)和 MGX 系統(tǒng)的核心組件,它們專為處理海量的生成型人工智能任務(wù)而設(shè)計(jì)。英偉達(dá)還宣布了其新的 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái),專為人工智能服務(wù)器和超級計(jì)算集群而優(yōu)化。
Grace Hopper 超級芯片是英偉達(dá)開發(fā)的基于 Arm 架構(gòu)的 CPU+GPU 集成方案,它將 72 核的 Grace CPU、Hopper GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個(gè)封裝中,共有 2000 億個(gè)晶體管。這種組合提供了 CPU 和 GPU 之間驚人的數(shù)據(jù)帶寬,高達(dá) 1 TB / s,為某些內(nèi)存受限的工作負(fù)載提供了巨大的優(yōu)勢。
DGX GH200 人工智能超級計(jì)算平臺(tái)是英偉達(dá)針對最高端的人工智能和高性能計(jì)算工作負(fù)載而設(shè)計(jì)的系統(tǒng)和參考架構(gòu),目前的 DGX A100 系統(tǒng)只能將八個(gè) A100 GPU 聯(lián)合起來作為一個(gè)單元,考慮到生成型人工智能的爆炸式增長,英偉達(dá)的客戶迫切需要更大、更強(qiáng)大的系統(tǒng),DGX GH200 就是為了提供最大的吞吐量和可擴(kuò)展性而設(shè)計(jì)的,它通過使用英偉達(dá)的定制 NVLink Switch 芯片來避免標(biāo)準(zhǔn)集群連接選項(xiàng)(如 InfiniBand 和以太網(wǎng))的限制。
DGX GH200 的細(xì)節(jié)還不太清楚,但已確認(rèn)英偉達(dá)使用了一種新的 NVLink Switch 系統(tǒng),包含 36 個(gè) NVLink 開關(guān),將 256 個(gè) GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個(gè)單元,英偉達(dá) CEO 黃仁勛表示,GH200 芯片為“巨型 GPU”。這是英偉達(dá)第一次使用 NVLink Switch 拓?fù)浣Y(jié)構(gòu)來構(gòu)建整個(gè)超級計(jì)算機(jī)集群,英偉達(dá)稱這種結(jié)構(gòu)提供了比前一代系統(tǒng)高出 10 倍的 GPU 到 GPU 和 7 倍的 CPU 到 GPU 的帶寬。它還設(shè)計(jì)了提供比競爭對手高出 5 倍的互連功耗效率和高達(dá) 128 TB / s 的對分帶寬。該系統(tǒng)有 150 英里(IT之家備注:約 241.4 公里)的光纖,并且重達(dá) 4 萬磅,但是呈現(xiàn)出來就像一個(gè)單一的 GPU。英偉達(dá)表示,256 顆 Grace Hopper 超級芯片將 DGX GH200 的“AI 性能”提升到了 exaflop(一百萬萬億次)。
英偉達(dá)將把 DGX GH200 的參考藍(lán)圖提供給其主要客戶谷歌、Meta 和微軟,并且還將把該系統(tǒng)作為云服務(wù)提供商和超大規(guī)模數(shù)據(jù)中心的參考架構(gòu)設(shè)計(jì)。英偉達(dá)自己也將部署一個(gè)新的英偉達(dá) Helios 超級計(jì)算機(jī),由四個(gè) DGX GH200 系統(tǒng)組成,用于自家的研發(fā)工作。這四個(gè)系統(tǒng)共有 1024 個(gè) Grace Hopper 芯片,并且用英偉達(dá)的 Quantum-2 InfiniBand 400 Gb / s 網(wǎng)絡(luò)連接起來。
英偉達(dá) DGX 面向最高端的系統(tǒng),HGX 系統(tǒng)面向超大規(guī)模數(shù)據(jù)中心,而新的 MGX 系統(tǒng)則處于這兩者之間,而且 DGX 和 HGX 將與新的 MGX 系統(tǒng)共存。英偉達(dá)的 OEM 合作伙伴在設(shè)計(jì)人工智能中心的服務(wù)器時(shí)面臨著新的挑戰(zhàn),會(huì)降低設(shè)計(jì)和部署的速度。英偉達(dá)的新 MGX 參考架構(gòu)旨在加快這一過程,提供了 100 多種參考設(shè)計(jì)。
MGX 系統(tǒng)由模塊化設(shè)計(jì)組成,涵蓋了英偉達(dá)的 CPU 和 GPU、DPU 和網(wǎng)絡(luò)系統(tǒng)的各個(gè)方面,但也包括了基于常見的 x86 和 Arm 處理器的設(shè)計(jì)。英偉達(dá)還提供了空冷和液冷的設(shè)計(jì)選項(xiàng),以適應(yīng)各種應(yīng)用場景。華碩、技嘉、永擎和和碩都將使用 MGX 參考架構(gòu)來開發(fā)將在今年晚些時(shí)候到明年初推出的系統(tǒng)。
至于新的 Spectrum-X 網(wǎng)絡(luò)平臺(tái),英偉達(dá)稱它為“專為人工智能而打造的高性能以太網(wǎng)”網(wǎng)絡(luò)平臺(tái)。Spectrum-X 設(shè)計(jì)采用了英偉達(dá)的 51 Tb / s Spectrum-4 400 GbE 以太網(wǎng)交換機(jī)和英偉達(dá) Bulefield-3 DPU,搭配軟件和 SDK,使開發(fā)人員能夠根據(jù) AI 工作負(fù)載的獨(dú)特需求調(diào)整系統(tǒng)。
與其他基于以太網(wǎng)的系統(tǒng)相比,英偉達(dá)稱 Spectrum-X 是無損的,從而提供了更好的 QoS 和延遲。它還具有新的自適應(yīng)路由技術(shù),這在多租戶環(huán)境中特別有用。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。