IT之家 7 月 13 日消息,外媒 Semianalysis 近日對(duì) OpenAI 今年 3 月發(fā)布的 GPT-4 大模型進(jìn)行了揭秘,其中包括 GPT-4 模型架構(gòu)、訓(xùn)練和推理的基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集、token 數(shù)、成本、混合專家模型(Mixture of Experts)等具體的參數(shù)和信息。
外媒表示,GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù),而 GPT-3 只有約 1750 億個(gè)參數(shù)。而為了保持合理的成本,OpenAI 采用混合專家模型來進(jìn)行構(gòu)建。
IT之家注:混合專家模型(Mixture of Experts)是一種神經(jīng)網(wǎng)絡(luò),該系統(tǒng)根據(jù)數(shù)據(jù)進(jìn)行分離訓(xùn)練多個(gè)模型,在各模型輸出后,系統(tǒng)將這些模型整合輸出為一個(gè)單獨(dú)的任務(wù)。
據(jù)悉,GPT-4 使用了 16 個(gè)混合專家模型 (mixture of experts),每個(gè)有 1110 億個(gè)參數(shù),每次前向傳遞路由經(jīng)過兩個(gè)專家模型。
此外,它有 550 億個(gè)共享注意力參數(shù),使用了包含 13 萬億 tokens 的數(shù)據(jù)集訓(xùn)練,tokens 不是唯一的,根據(jù)迭代次數(shù)計(jì)算為更多的 tokens。
GPT-4 預(yù)訓(xùn)練階段的上下文長(zhǎng)度為 8k,32k 版本是對(duì) 8k 微調(diào)的結(jié)果,訓(xùn)練成本相當(dāng)高,外媒表示,8x H100 也無法以每秒 33.33 個(gè) Token 的速度提供所需的密集參數(shù)模型,因此訓(xùn)練該模型需要導(dǎo)致極高的推理成本,以 H100 物理機(jī)每小時(shí) 1 美元計(jì)算,那么一次的訓(xùn)練成本就高達(dá) 6300 萬美元(約 4.51 億元人民幣)。
對(duì)此,OpenAI 選擇使用云端的 A100 GPU 訓(xùn)練模型,將最終訓(xùn)練成本降至 2150 萬美元(約 1.54 億元人民幣)左右,用稍微更長(zhǎng)的時(shí)間,降低了訓(xùn)練成本。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。