442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

量子位 2022/6/11 13:21:24 責(zé)編：汪淼

評(píng)論：

一篇 AI 論文，442 個(gè)作者，其中還專門留了一章節(jié)寫作者貢獻(xiàn)，100 頁(yè)里超過(guò)一半都是參考文獻(xiàn)……

谷歌最新發(fā)布的論文 ——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models 作者那一欄就變成了這樣……

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

來(lái)自 132 個(gè)機(jī)構(gòu)的研究學(xué)者，耗時(shí)兩年提出了一個(gè)大語(yǔ)言模型新基準(zhǔn) BIG-bench。并在此基礎(chǔ)上評(píng)估了 OpenAI 的 GPT 模型，Google-internal dense transformer 架構(gòu)等，模型規(guī)模橫 6 個(gè)數(shù)量級(jí)。

最終結(jié)果顯示，模型性能雖然隨著規(guī)模的擴(kuò)大而提高，但跟人類的表現(xiàn)相差還很遠(yuǎn)。

對(duì)于這項(xiàng)工作，Jeff Dean 轉(zhuǎn)發(fā)點(diǎn)贊：Great Work。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

大語(yǔ)言模型新基準(zhǔn)

來(lái)康康這篇論文究竟說(shuō)了什么。

隨著規(guī)模的擴(kuò)大，模型的性能和質(zhì)量都有一定的改進(jìn)，這當(dāng)中可能還存在一些變革性影響，但這些性能此前都沒(méi)有很好的描述。

現(xiàn)存的一些基準(zhǔn)都有一定的局限性，評(píng)估范圍比較狹窄，性能分?jǐn)?shù)迅速達(dá)到飽和。

比如 SuperGLUE，在該基準(zhǔn)推出后的 18 個(gè)月內(nèi)，模型就實(shí)現(xiàn)了“超過(guò)人類水平”的性能。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

基于這樣的背景，BIG-bench 就誕生了。

目前它由 204 個(gè)任務(wù)組成，內(nèi)容涵蓋語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見(jiàn)、軟件開(kāi)發(fā)等方面的問(wèn)題。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

此外還有個(gè)人類專家評(píng)審團(tuán)，也執(zhí)行了所有任務(wù)，以提供基線水平。

為了方便更多機(jī)構(gòu)使用，研究人員還給出了 BIG-bench Lite，一個(gè)小型但有代表性的任務(wù)子集，方便更快地評(píng)估。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

以及開(kāi)源了實(shí)現(xiàn)基準(zhǔn) API 的代碼，支持在公開(kāi)可用的模型上進(jìn)行任務(wù)評(píng)估，以及新任務(wù)的輕量級(jí)創(chuàng)建。

最終評(píng)估結(jié)果可以看到，規(guī)模橫跨六個(gè)數(shù)量級(jí)，BIG-bench 上的總體性能隨著模型規(guī)模的擴(kuò)大、訓(xùn)練樣本數(shù)量的增加而提高。

但跟人類基線水平相比，還是表現(xiàn)得比較差。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

具體在一些任務(wù)上，模型性能會(huì)隨著規(guī)模的增加而平穩(wěn)地提高。但有時(shí)候，會(huì)在特定規(guī)模上突然出現(xiàn)突破性表現(xiàn)。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

此外，它還可以評(píng)估模型存在的社會(huì)偏見(jiàn)。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

此外，他們還意外發(fā)現(xiàn)模型還可以 get 一些隱藏技能。比如，如何在國(guó)際象棋中合乎規(guī)則的移動(dòng)。

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

作者貢獻(xiàn)寫了 14 頁(yè)

值得一提的是，可能因?yàn)樽髡哌^(guò)多，論文最后還專門留了一章寫作者貢獻(xiàn)。洋洋灑灑的寫了 14 頁(yè)，其中包括核心貢獻(xiàn)者、Review 的、提供任務(wù)的……

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

剩下的，還有 50 頁(yè)的參考文獻(xiàn)。

好了，感興趣的旁友可戳下方鏈接康康論文。

論文鏈接：

https://arxiv.org/abs/2206.04615

GitHub 鏈接：

https://github.com/google/BIG-bench

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench

大語(yǔ)言模型新基準(zhǔn)

作者貢獻(xiàn)寫了 14 頁(yè)

相關(guān)文章

442 個(gè)作者，100 頁(yè)論文一半都是參考文獻(xiàn)，谷歌耗時(shí) 2 年發(fā)布開(kāi)源大模型新基準(zhǔn) BIG-Bench