設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

中英文最大 AI 模型世界紀錄先后產(chǎn)生,大模型競賽新階段來了

量子位 2021/10/15 15:04:23 責編:冷泉

10 月 15 日消息,超大 AI 模型訓練成本太高 hold 不???連市值萬億的公司都開始尋求合作了。

本周,英偉達與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的“威震天-圖靈”(Megatron-Turing),成為迄今為止全球最大 AI 單體模型。

僅僅在半個月前,國內(nèi)的浪潮發(fā)布了 2500 億參數(shù)的中文 AI 巨量模型“源 1.0”。

不到一個月的時間里,最大英文和中文 AI 單體模型的紀錄分別被刷新。

而值得注意的是:

技術(shù)發(fā)展如此之快,“威震天-圖靈”和“源 1.0”還是沒有達到指數(shù)規(guī)律的預(yù)期。

要知道,從 2018 年開始,NLP 模型參數(shù)近乎以每年一個數(shù)量級的速度在增長。

▲ 近年來 NLP 模型參數(shù)呈指數(shù)級上漲(圖片來自微軟)

而 GPT-3 出現(xiàn)后,雖然有 Switch Transformer 等萬億參數(shù)混合模型出現(xiàn),但單體模型增長速度已經(jīng)明顯放緩。

無論是國外的“威震天-圖靈”,還是國內(nèi)的“源 1.0”,其規(guī)模和 GPT-3 沒有數(shù)量級上的差異。即便“威震天-圖靈”和“源 1.0”都用上了各自最強大的硬件集群。

單體模型是發(fā)展遇到瓶頸了么?

超大模型的三個模式

回答這個疑問,首先得梳理一下近年來出現(xiàn)的超大規(guī)模 NLP 模型。

如果從模型的開發(fā)者來看,超大規(guī)模 NLP 模型的研發(fā)隨時間發(fā)展逐漸形成了三種模式。

一、以研究機構(gòu)為主導

無論是開發(fā) ELMo 的 Allen 研究所、還是開發(fā) GPT-2 的 OpenAI(當時還未引入微軟投資)都不是以盈利為目標。

且這一階段的超大 NLP 模型都是開源的,得到了開源社區(qū)的各種復(fù)現(xiàn)與改進。

ELMo 有超過 40 個非官方實現(xiàn),GPT-2 也被國內(nèi)開發(fā)者引入,用于中文處理。

二、科技企業(yè)巨頭主導

由于模型越來越大,訓練過程中硬件的優(yōu)化變得尤為重要。

從 2019 年下半年開始,各家分別開發(fā)出大規(guī)模并行訓練、模型擴展技術(shù),以期開發(fā)出更大的 NLP 模型。英偉達 Megatron-LM、谷歌 T5、微軟 Turing-NLG 相繼出現(xiàn)。

今年國內(nèi)科技公司也開始了類似研究,中文 AI 模型“源 1.0”便是國內(nèi)硬件公司的一次突破 ——

成就中文領(lǐng)域最大 NLP 模型,更一度刷新參數(shù)最多的大模型紀錄。

“源 1.0” 不僅有高達 5TB 的全球最大中文高質(zhì)量數(shù)據(jù)集,在總計算量和訓練效率優(yōu)化上都是空前的。

三、巨頭與研究機構(gòu)或巨頭之間相互合作

擁有技術(shù)的 OpenAI 由于難以承受高昂成本,引入了微軟 10 億美元投資。依靠海量的硬件與數(shù)據(jù)集資源,1750 億參數(shù)的 GPT-3 于去年問世。

但是,今年萬億參數(shù)模型的 GPT-4 并沒有如期出現(xiàn),反而是微軟與英偉達聯(lián)手,推出了“威震天-圖靈”。

我們再把目光放回到國內(nèi)。

“威震天-圖靈”發(fā)布之前,國內(nèi)外涌現(xiàn)了了不少超大 AI 單體模型,國內(nèi)就有阿里達摩院 PLUG、“源 1.0”等。

像英偉達、微軟、谷歌、華為、浪潮等公司加入,一方面是為 AI 研究提供大量的算力支持,另一方面是因為他們在大規(guī)模并行計算上具有豐富的經(jīng)驗。

當 AI 模型參數(shù)與日俱增,達到千億量級,訓練模型的可行性面臨兩大挑戰(zhàn):

1、即使是最強大的 GPU,也不再可能將模型參數(shù)擬合到單卡的顯存中;

2、如果不特別注意優(yōu)化算法、軟件和硬件堆棧,那么超大計算會讓訓練時長變得不切實際。

而現(xiàn)有的三大并行策略在計算效率方面存在妥協(xié),難以做到魚與熊掌兼得。

英偉達與微軟合體正是為此,同樣面對該問題,浪潮在“源 1.0”中也用了前沿的技術(shù)路徑解決訓練效率問題。

從“源 1.0”的 arXiv 論文中,我們可以窺見這種提高計算效率的方法。

在對源的大規(guī)模分布式訓練中,浪潮采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。

“威震天-圖靈”和“源 1.0”一樣,在張量并行策略中,模型的層在節(jié)點內(nèi)的設(shè)備之間進行劃分。

流水線并行將模型的層序列在多個節(jié)點之間進行分割,以解決存儲空間不足的問題。

另外還有數(shù)據(jù)并行策略,將全局批次規(guī)模按照流水線分組進行分割。

三家公司運用各自的技術(shù),將最先進的 GPU 與尖端的分布式學習軟件堆棧進行融合,實現(xiàn)了前所未有的訓練效率,最終分別打造出英文領(lǐng)域和中文領(lǐng)域的最大 AI 單體模型。

訓練超大規(guī)模自然語言模型成本升高,技術(shù)上殊途同歸,形成研究機構(gòu)與科技巨頭協(xié)同發(fā)展,三種探索模式并駕齊驅(qū)的局面。

中英 AI 模型互有勝負

訓練成本趨高,技術(shù)趨同,為何各家公司還是選擇獨自研究,不尋求合作?

我們從 GPT-3 身上或許可見一斑。

去年發(fā)布的 GPT-3 不僅未開源,甚至連 API 都是限量提供,由于獲得微軟的投資,今后 GPT-3 將由微軟獨享知識產(chǎn)權(quán),其他企業(yè)或個人想使用完整功能只能望洋興嘆。

訓練成本奇高、道德倫理問題以及為了保證行業(yè)領(lǐng)先地位,讓微軟不敢下放技術(shù)。其他科技公司也不可能將自己的命運交給微軟,只能選擇獨自開發(fā)。

尤其對于中國用戶來說,以上一批超大模型都不是用中文數(shù)據(jù)集訓練,無法使用在中文語境中。

中文語言的訓練也比英文更難。英文由單詞組成,具有天然的分詞屬性。

而中文需要對句子首先進行分詞處理,如“南京市長江大橋”,南京市 | 長江 | 大橋、南京 | 市長 | 江大橋,錯誤的分詞會讓 AI 產(chǎn)生歧義。

相比于英文有空格作為分隔符,中文分詞缺乏統(tǒng)一標準,同樣一個詞匯在不同語境、不同句子中的含義可能會相差甚遠,加上各種網(wǎng)絡(luò)新詞匯參差不齊、中英文混合詞匯等情況,要打造出一款出色的中文語言模型需要付出更多努力。

所以國內(nèi)公司更積極研究中文模型也就不難理解了。

即便難度更高,國內(nèi)公司還一度處于全球領(lǐng)先,比如數(shù)據(jù)集和訓練效率方面。

據(jù)浪潮論文透露,“源 1.0”硬件上使用了 2128 塊 GPU,浪潮共搜集了 850TB 數(shù)據(jù),最終清洗得到 5TB 高質(zhì)量中文數(shù)據(jù)集。

其文字數(shù)據(jù)體積多于“威震天-圖靈”(835GB),而且中文信息熵大大高于英文,信息量其實更大。

在訓練效率方面,“源 1.0”訓練用了 16 天,“圖靈威-震天”用了一個多月,前者數(shù)據(jù)量是后者 3 倍有余,耗時卻只有后者一半 ——

其專注中文,關(guān)注效率努力也可見一斑。

大模型你來我往間能看出,發(fā)展已走入百花齊放互不相讓的階段,這給我們帶來新的思考:AI 巨量模型既然不“閉門造車”,那如何走向合作?

多方合作可能才是未來

表面上“威震天-圖靈”(Megatron-Turing NLG)是第一次由兩家科技巨頭合作推出超大 AI 模型。

其背后,雙方不僅組成了“超豪華”硬件陣容,在算法上也有融合。強強聯(lián)合成為超大 AI 模型落地的一種新方式,

國外巨頭開啟先例,那么國內(nèi)公司的現(xiàn)狀又是如何呢?其實有機構(gòu)已經(jīng)邁出合作的第一步。

諸如浪潮的“源 1.0”,和當初的“威震天”一樣,也是由硬件廠商主導開發(fā)的超大規(guī)模自然語言模型。

浪潮透露,實際上 9 月 28 日的發(fā)布會上,他們邀請了國內(nèi)的學者和數(shù)家科技公司共同探討未來“源 1.0”合作的可能性。

在產(chǎn)業(yè)界,浪潮早就提出了“元腦計劃”的生態(tài)聯(lián)盟,“源 1.0”未來將向元腦生態(tài)社區(qū)內(nèi)所有開發(fā)者開放 API,所有加入生態(tài)的 AI 技術(shù)公司都可以利用“源 1.0”進行二次開發(fā),從而制造出更強大的功能。

國內(nèi)超大規(guī)模自然語言模型合作的時代正在開啟。

合作開發(fā)巨量模型能帶來什么?李飛飛等知名學者已經(jīng)給出答案:當數(shù)據(jù)規(guī)模和參數(shù)規(guī)模大到一定程度時,量變最終能產(chǎn)生質(zhì)變,GPT-3 就是先例。

如今大模型越來越多,但未來關(guān)鍵還在于如何縱橫捭闔,打造屬于一套開放合作體系,讓所有技術(shù)公司群策群力。

而 AI 巨量模型在這樣的生態(tài)體系下會帶來怎樣的變化,在“源 1.0”等一大批模型開放后,應(yīng)該很快就能看見。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:威震天圖靈,AI,訓練模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知