GPT-4 模型架構(gòu)泄露：包含 1.8 萬億參數(shù)、采用混合專家模型

2023/7/13 12:12:59 來源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：汪淼

評(píng)論：

IT之家 7 月 13 日消息，外媒 Semianalysis 近日對(duì) OpenAI 今年 3 月發(fā)布的 GPT-4 大模型進(jìn)行了揭秘，其中包括 GPT-4 模型架構(gòu)、訓(xùn)練和推理的基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集、token 數(shù)、成本、混合專家模型（Mixture of Experts）等具體的參數(shù)和信息。

▲ 圖源 Semianalysis

外媒表示，GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù)，而 GPT-3 只有約 1750 億個(gè)參數(shù)。而為了保持合理的成本，OpenAI 采用混合專家模型來進(jìn)行構(gòu)建。

IT之家注：混合專家模型（Mixture of Experts）是一種神經(jīng)網(wǎng)絡(luò)，該系統(tǒng)根據(jù)數(shù)據(jù)進(jìn)行分離訓(xùn)練多個(gè)模型，在各模型輸出后，系統(tǒng)將這些模型整合輸出為一個(gè)單獨(dú)的任務(wù)。

GPT-4 模型架構(gòu)泄露：包含 1.8 萬億參數(shù)、采用混合專家模型

▲ 圖源 Semianalysis

據(jù)悉，GPT-4 使用了 16 個(gè)混合專家模型 (mixture of experts)，每個(gè)有 1110 億個(gè)參數(shù)，每次前向傳遞路由經(jīng)過兩個(gè)專家模型。

此外，它有 550 億個(gè)共享注意力參數(shù)，使用了包含 13 萬億 tokens 的數(shù)據(jù)集訓(xùn)練，tokens 不是唯一的，根據(jù)迭代次數(shù)計(jì)算為更多的 tokens。

GPT-4 預(yù)訓(xùn)練階段的上下文長(zhǎng)度為 8k，32k 版本是對(duì) 8k 微調(diào)的結(jié)果，訓(xùn)練成本相當(dāng)高，外媒表示，8x H100 也無法以每秒 33.33 個(gè) Token 的速度提供所需的密集參數(shù)模型，因此訓(xùn)練該模型需要導(dǎo)致極高的推理成本，以 H100 物理機(jī)每小時(shí) 1 美元計(jì)算，那么一次的訓(xùn)練成本就高達(dá) 6300 萬美元（約 4.51 億元人民幣）。

對(duì)此，OpenAI 選擇使用云端的 A100 GPU 訓(xùn)練模型，將最終訓(xùn)練成本降至 2150 萬美元（約 1.54 億元人民幣）左右，用稍微更長(zhǎng)的時(shí)間，降低了訓(xùn)練成本。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4 模型架構(gòu)泄露：包含 1.8 萬億參數(shù)、采用混合專家模型

相關(guān)文章

GPT-4 模型架構(gòu)泄露：包含 1.8 萬億參數(shù)、采用混合專家模型