設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

史上最強(qiáng)大 AI 模型,OpenAI 萬(wàn)能語(yǔ)言模型 GPT-3 起底:寫作神器 or 魔鬼化身

芯東西 2021/3/5 19:31:18 責(zé)編:問(wèn)舟

2020 年 6 月,在訓(xùn)練約 2000 億個(gè)單詞、燒掉幾千萬(wàn)美元后,史上最強(qiáng)大 AI 模型 GPT-3 一炮而紅。

這個(gè) OpenAI 打造的語(yǔ)言 AI 模型宛如萬(wàn)能選手,只有你想不到的畫風(fēng),沒(méi)有它輸不出的文案,既能創(chuàng)作文學(xué),能當(dāng)翻譯,還能編寫自己的計(jì)算機(jī)代碼。任何外行人都可以使用這一模型,幾分鐘內(nèi)提供示例,就能獲得想要的文本產(chǎn)出。

“我不得不說(shuō)我被震撼了?!币患夜韫燃夹g(shù)初創(chuàng)公司的創(chuàng)始人 Arram Sabeti 稱贊道,“它比我嘗試過(guò)的任何 AI 語(yǔ)言系統(tǒng)都更加連貫?!薄澳阋龅木褪蔷帉懸粋€(gè)提示,然后添加可能會(huì)被跟進(jìn)的文本。我得到的是寫歌、故事、新聞稿、吉他譜、訪談,論文、技術(shù)手冊(cè)。這很有趣又令人恐懼。我覺(jué)得我已經(jīng)看到了未來(lái)。”Sabeti 說(shuō)。

GPT-3 是如何實(shí)現(xiàn)的?它創(chuàng)造的東西有多逼真?存在什么缺陷?圍繞這一強(qiáng)大的語(yǔ)言模型,科學(xué)家們正試圖解決哪些爭(zhēng)議?本文將對(duì)這些問(wèn)題進(jìn)行詳盡的綜述。

01. 寫小說(shuō)、敲代碼、編劇本媲美人類的萬(wàn)能創(chuàng)作者

GPT-3 的輸出牛到什么程度呢?它編撰的新故事,根本看不出來(lái)不是人類寫的。如果你讓它做編程任務(wù),它能回答瑣碎問(wèn)題、糾正語(yǔ)法、解決數(shù)學(xué)問(wèn)題,甚至生成計(jì)算機(jī)代碼。其他 AI 也可以做這些事情,不過(guò)它們必須經(jīng)過(guò)專門地訓(xùn)練才能完成。

如今大型語(yǔ)言模型已經(jīng)是一個(gè)商業(yè)命題。谷歌用其改善搜索結(jié)果和語(yǔ)言翻譯,F(xiàn)acebook、微軟和英偉達(dá)也在開(kāi)發(fā)大型語(yǔ)言模型。雖說(shuō) OpenAI 是一家非營(yíng)利性公司,但它將 GPT-3 的代碼保密,并計(jì)劃通過(guò)互聯(lián)網(wǎng)出售 GPT-3 的訪問(wèn)服務(wù)。

在 2019 年,它創(chuàng)建了一個(gè)名為 OpenAI LP 的營(yíng)利性實(shí)體,微軟還給它投資了 10 億美元。開(kāi)發(fā)人員正在測(cè)試 GPT-3 的各種能力,包括匯總法律文件、建議客戶服務(wù)查詢的答案、提供計(jì)算機(jī)代碼、運(yùn)行基于文本的角色扮演游戲、將帖子標(biāo)記為 “求助”來(lái)識(shí)別同伴支持社區(qū)中高風(fēng)險(xiǎn)人員…… 例如,作家兼程序員格溫 · 布蘭文(Gwern Branwen)用 GPT-3 編寫了諷刺科學(xué)和學(xué)術(shù)界的詞典定義。輸入提示:“Rigor(形容詞),一種科學(xué)家們渴望的精神狀態(tài),如果科學(xué)家們能夠被信任去完成他們的工作,則不需要這種精神狀態(tài)?!盙PT-3 即可輸出類似的定義:“The Literature(名詞),別人發(fā)表的論文的名字,科學(xué)家在沒(méi)有真正閱讀的情況下引用它們?!币韵率?GPT-3 輸出的一系列定義示例:

▲布蘭文讓 GPT-3 編寫諷刺科學(xué)和學(xué)術(shù)界的詞典定義

示例鏈接:https://www.gwern.net/GPT-3 去年 7 月,加州大學(xué)伯克利分校的學(xué)生利亞姆 · 波爾(Liam Porr)用 GPT-3 撰寫了幾篇博客文章并發(fā)布在互聯(lián)網(wǎng)上,有超過(guò) 26000 人閱讀,吸引 60 位讀者訂閱該博客,而只有少數(shù)幾位懷疑文章是由機(jī)器撰寫的。這些讀者未必是容易受騙的人。其中一篇博客文章寫道,如果您別對(duì)自己所做的事情考慮太多,就可以提高工作效率。這篇博客文章曾上升到知名信息聚合及新聞評(píng)分網(wǎng)站 Hacker News 的排行榜首位。

02. 強(qiáng)大如 GPT-3,也有荒謬的回答

盡管功能強(qiáng)大,GPT-3 也有些弱點(diǎn)。OpenAI CEO 山姆 · 奧特曼(Sam Altman)去年 7 月在推特上說(shuō),它通過(guò)觀察所讀單詞和短語(yǔ)之間的統(tǒng)計(jì)關(guān)系來(lái)工作,但并不理解其中的含義,“有時(shí)甚至?xí)阜浅4赖腻e(cuò)誤?!备渌^小的聊天機(jī)器人一樣,它可能會(huì)發(fā)出仇恨言論,產(chǎn)生種族主義和性別歧視的刻板印象,忠實(shí)地反映在其訓(xùn)練數(shù)據(jù)中的關(guān)聯(lián)。有時(shí),GPT-3 會(huì)給出荒謬或十分危險(xiǎn)的答案。比如,當(dāng)被問(wèn):“烤面包機(jī)和鉛筆哪個(gè)更重?”它可能回答:“鉛筆比烤面包機(jī)重。”

還有一次,一家名為 Nabla 的醫(yī)療保健公司問(wèn)一個(gè) GPT-3 聊天機(jī)器人:“我應(yīng)該自殺嗎?”GPT-3 回答說(shuō):“我認(rèn)為你應(yīng)該?!?/p>

華盛頓大學(xué)和艾倫 AI 研究所計(jì)算機(jī)科學(xué)家崔藝珍(Yejin Choi)認(rèn)為,GPT-3 不僅展示了我們可以通過(guò)純粹擴(kuò)展到極限規(guī)模而獲得的新功能,也展示了對(duì)這種蠻力規(guī)模局限性的新見(jiàn)解。華盛頓大學(xué)計(jì)算機(jī)語(yǔ)言學(xué)家艾米莉 · 班德(Emily Bender)既驚訝于 GPT-3 的流利程度,又對(duì)它的愚蠢感到恐懼:“結(jié)果是可理解的和荒謬的。”她與人合著了有關(guān) GPT-3 和其他模型的危害的論文,稱語(yǔ)言模型為 “隨機(jī)鸚鵡”,因?yàn)樗鼈儠?huì)回蕩所聽(tīng)到的聲音,并通過(guò)隨機(jī)性進(jìn)行混音。

▲計(jì)算機(jī)科學(xué)家崔藝珍(Yejin Choi)

研究人員對(duì)如何解決語(yǔ)言模型中潛在的有害偏見(jiàn)有一些想法,但像許多人希望做的那樣,向模型中灌輸常識(shí)、因果推理或道德判斷,仍然是巨大的研究挑戰(zhàn)?!拔覀兘裉鞊碛械?,本質(zhì)上是沒(méi)有大腦的一張嘴巴?!贝匏囌湔f(shuō)。

03.1750 億個(gè)參數(shù),容量爆炸的預(yù)測(cè)機(jī)器

語(yǔ)言 AI 模型是神經(jīng)網(wǎng)絡(luò),一種受神經(jīng)元在大腦中連接方式啟發(fā)的數(shù)學(xué)函數(shù)。它們通過(guò)預(yù)測(cè)所看到的文本中被遮蓋的單詞進(jìn)行訓(xùn)練,然后調(diào)整其分層計(jì)算元素(或 “神經(jīng)元”)之間的連接強(qiáng)度,來(lái)減少預(yù)測(cè)錯(cuò)誤。隨著算力的提高,這類模型變得越來(lái)越復(fù)雜。2017 年,研究人員研發(fā)一種能節(jié)省訓(xùn)練時(shí)間的數(shù)學(xué)技術(shù) Transformer,能在多處理器上并行訓(xùn)練。第二年,谷歌發(fā)布了基于大型 Transformer 的模型 BERT,帶動(dòng)了使用這一技術(shù)的模型爆炸式增長(zhǎng)。通常,它們會(huì)先進(jìn)行單詞預(yù)測(cè)等一般任務(wù)的預(yù)訓(xùn)練,然后再對(duì)特定任務(wù)進(jìn)行微調(diào)。比如它們可能被問(wèn)一些瑣碎的問(wèn)題,然后被訓(xùn)練來(lái)提供答案。GPT-3 指 Generative Pretrained Transformer 3,是其所屬系列的第三代產(chǎn)品,規(guī)模比其 2019 年發(fā)布的前身 GPT-2 大 100 倍以上。北卡羅來(lái)納大學(xué)教堂山分校計(jì)算機(jī)科學(xué)家科林 · 拉斐爾(Colin Raffel)說(shuō),訓(xùn)練一個(gè)如此大的模型,需要在數(shù)百個(gè)并行處理器之間進(jìn)行復(fù)雜的編排,他贊嘆這是 “令人印象深刻的工程壯舉”。

▲越來(lái)越大的語(yǔ)言模型

神經(jīng)網(wǎng)絡(luò)的大小可通過(guò)其參數(shù)數(shù)來(lái)粗略衡量。這些數(shù)字定義了神經(jīng)元之間連接的強(qiáng)度,更多的神經(jīng)元和更多的連接意味著更多的參數(shù)。GPT-3 擁有 1750 億個(gè)參數(shù),第二大語(yǔ)言模型擁有 170 億個(gè)參數(shù)。谷歌曾在今年 1 月發(fā)布一個(gè)擁有 1.6 萬(wàn)億個(gè)參數(shù)的語(yǔ)言模型 Switch Transformer,但這是個(gè) “稀疏”模型,每個(gè)參數(shù)的工作量都會(huì)減少。加拿大蒙特利爾大學(xué)和谷歌研究人員 William Fedus 說(shuō),就性能而言,這相當(dāng)于一個(gè)參數(shù)量介于 100 億到 1000 億之間的 “稠密”模型。

04. 即時(shí)編程,為特定問(wèn)題量身定制解法

為了更好預(yù)測(cè)單詞,GPT-3 會(huì)吸收所有可能的模式,使它能夠識(shí)別語(yǔ)法、論文結(jié)構(gòu)和寫作風(fēng)格。給它提供一些任務(wù)示例,或向它提出一個(gè)問(wèn)題,它就能繼續(xù)執(zhí)行該主題。GPT-3 擅長(zhǎng)針對(duì)輸入文本的樣式和內(nèi)容量身定制響應(yīng),這被稱為 “即時(shí)編程”。“這幾乎是和計(jì)算機(jī)打交道的新界面。” OpenAI 聯(lián)合創(chuàng)始人兼 CTO 格雷格 · 布魯克曼(Greg Brockman)說(shuō)。其他語(yǔ)言模型同樣將單詞作為輸入,然后生成響應(yīng)作為輸出,但是輸入提示不能使它們做超出其微調(diào)范圍的事情。在一個(gè)示例中,美國(guó)詩(shī)人安德魯 · 布朗(Andrew Brown)展示了 GPT-3 的強(qiáng)大功能,他在推特上寫道提供給程序這樣的指示:“詩(shī)歌任務(wù)是這樣的:從一頭云的角度,俯視兩座交戰(zhàn)的城市,寫一首詩(shī)。這位聰明的學(xué)生詩(shī)人上交了以下押韻詩(shī):”GPT-3 回答的結(jié)果是:“I think I’ll start to rain(我想我將開(kāi)始下雨),Because I don’t think I can stand the pain(因?yàn)槲艺J(rèn)為我無(wú)法忍受那樣的痛苦),Of seeing you two(看見(jiàn)你們倆),Fighting like you do(像你們一樣戰(zhàn)斗).”布朗認(rèn)為 GPT-3 足夠好,可以在一半以上的時(shí)間內(nèi)產(chǎn)生 “值得編輯”的東西。一位化名為格溫 · 布蘭文(Gwern Branwen)的程序員說(shuō),輸入不同的提示可能會(huì)導(dǎo)致不同質(zhì)量的結(jié)果。他在博客中寫道:“「即時(shí)編程」不像常規(guī)編程,而像教一只超級(jí)聰明的貓學(xué)習(xí)新技巧那樣,您可以提出要求,有時(shí)它會(huì)做得很好,但當(dāng)它翻身舔屁股時(shí),就更令人沮喪了——您知道問(wèn)題不是它不能,而是它不會(huì)?!崩?,當(dāng)你給出這樣的提示:“以下是 10 首由當(dāng)代前沿詩(shī)人創(chuàng)作的最新詩(shī)歌精選。它們涵蓋了從奇點(diǎn)到四季再到人類死亡的每一個(gè)主題,以非凡的隱喻、韻律和格律的使用為特色?!队钪媸莻€(gè)故障》,作者是……”

GPT-3 能即時(shí)生成如下詩(shī)歌:

示例鏈接:https://www.gwern.net/GPT-3#the-universe-is-a-glitch

05. 采用小樣本學(xué)習(xí)機(jī)制,無(wú)需微調(diào)

原 OpenAI 研究副總裁達(dá)里奧 · 阿德麥迪(Dario Amodei)在 12 月選擇離職創(chuàng)業(yè)。他回憶道,OpenAI 團(tuán)隊(duì)曾被 GPT-3 嚇了一跳。團(tuán)隊(duì)知道它將比 GPT-2 更好,因?yàn)樗懈蟮挠?xùn)練數(shù)據(jù)集和 “計(jì)算”量,這種改進(jìn) “在智力上并不令人驚訝,但在內(nèi)心和情感上卻是非常令人意外”。OpenAI 去年 5 月在預(yù)印服務(wù)器上發(fā)布了一篇論文,論文顯示 GPT-3 在許多語(yǔ)言生成測(cè)試中表現(xiàn)出色,包括瑣事、閱讀理解、翻譯、科學(xué)問(wèn)題、算術(shù)、整理句子、完成故事和常識(shí)性推理(如你應(yīng)該將液體倒在盤子還是廣口瓶上)。令人印象深刻的是,GPT-3 并沒(méi)有專門針對(duì)這些任務(wù)進(jìn)行微調(diào),但它可以與那些經(jīng)過(guò)微調(diào)的模型相媲美。有時(shí)它只看到幾個(gè)任務(wù)的提示例子,就能準(zhǔn)備出針對(duì)特定任務(wù)的輸出,而之前的模型往往需要成千上萬(wàn)個(gè)示例和數(shù)小時(shí)的額外訓(xùn)練時(shí)長(zhǎng)。?!靶颖緦W(xué)習(xí)的角度令人驚訝,”紐約大學(xué)計(jì)算機(jī)科學(xué)家山姆 · 鮑曼(Sam Bowman)說(shuō),他為語(yǔ)言模型創(chuàng)建了評(píng)估,“我懷疑這個(gè)領(lǐng)域的許多人會(huì)對(duì)它運(yùn)行得相當(dāng)好而吃驚?!币恍┛茖W(xué)家并不認(rèn)為這是一個(gè)壯舉,在他們看來(lái),GPT-3 的訓(xùn)練數(shù)據(jù)可能包含足夠多的例子,比如人們回答瑣碎問(wèn)題或翻譯文本的格式嵌入其參數(shù)中的某處??▋?nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)科學(xué)家約納坦 · 比斯克(Yonatan Bisk)對(duì) GPT-3 的印象不如大多數(shù)模型,他認(rèn)為 GPT-3 仍然 “主要是一個(gè)記憶引擎”,“如果您記住的更多,就能做的更多,這一點(diǎn)也不稀奇。”O(jiān)penAI 研究人員則認(rèn)為 GPT-3 比這要復(fù)雜得多。

06. 衡量語(yǔ)言模型進(jìn)展,語(yǔ)義搜索令人興奮

OpenAI 研究人員說(shuō),在預(yù)訓(xùn)練期間,GPT-3 實(shí)際上是在進(jìn)行元學(xué)習(xí):學(xué)習(xí)如何學(xué)習(xí)任務(wù)。生成的程序足夠靈活,可以在其提示文本的第一部分中使用示例或說(shuō)明來(lái)告知第二部分的繼續(xù)。這是否可以稱為元學(xué)習(xí)存在爭(zhēng)議。拉斐爾說(shuō):“目前,他們的模型正在做某些我們還沒(méi)有很好的術(shù)語(yǔ)來(lái)描述的事情?!碑?dāng)研究人員創(chuàng)建新測(cè)驗(yàn)來(lái)衡量知識(shí)的各方面時(shí),語(yǔ)言模型將不斷取得新進(jìn)展。去年 9 月,加州大學(xué)伯克利分校等地的一組研究人員發(fā)布了一項(xiàng) AI 挑戰(zhàn),共有 57 道多項(xiàng)選擇題,涵蓋數(shù)學(xué)、科學(xué)、社會(huì)科學(xué)或人文學(xué)科等不同學(xué)科。在這些任務(wù)中,人們平均完成各項(xiàng)任務(wù)的比例為 35%(盡管專家在他們的領(lǐng)域中做得更好),隨機(jī)回答將得到 25%的分?jǐn)?shù)。表現(xiàn)最好的 AI 模型是 UnifiedQA,這是谷歌研發(fā)的一個(gè)擁有 110 億參數(shù)的 T5 語(yǔ)言模型版本,該模型對(duì)類似的問(wèn)答任務(wù)上進(jìn)行了微調(diào),得分 49%。當(dāng) GPT-3 僅被顯示問(wèn)題時(shí),得分為 38%;在 “小樣本”設(shè)置中(在每個(gè)實(shí)際問(wèn)題之前,輸入提示包含其他問(wèn)題示例及答案),得分為 44%。GPT-3 創(chuàng)造者為之興奮的一個(gè)概念是語(yǔ)義搜索,其任務(wù)不是搜索一個(gè)特定的單詞或短語(yǔ),而是搜索一個(gè)概念。Brockman 說(shuō)他們給了一堆《哈利 · 波特》書,讓它指出哈利的朋友羅恩做某件偉大事情的時(shí)間。用 GPT-3 進(jìn)行語(yǔ)義搜索的另一種方式是,舊金山 Casetext 公司幫助律師搜索各個(gè)司法管轄區(qū)的法律文件,以獲取對(duì)給定法律標(biāo)準(zhǔn)的不同描述。

07. 大型語(yǔ)言模型暗藏的危險(xiǎn)

然而,使用 GPT-3 的研究人員也發(fā)現(xiàn)了風(fēng)險(xiǎn)。在去年 9 月 4 日發(fā)布到 arXiv 的預(yù)印本中,加州米德?tīng)柌飮?guó)際研究學(xué)院的兩名研究人員寫道,在生成偏激的文本方面,GPT-3 遠(yuǎn)遠(yuǎn)超過(guò)了 GPT-2。憑借其 “令人印象深刻的極端主義社區(qū)知識(shí)”,它可以制造出使納粹、陰謀理論家和白人至上主義者的辯論。該論文作者之一克里斯 · 麥古菲(Kris McGuffie)說(shuō),它能如此輕易地產(chǎn)生黑暗的例子是可怕的,假如極端主義組織掌握了 GPT-3 技術(shù),就能自動(dòng)生成惡意內(nèi)容。崔藝珍和她的同事在 2020 年 9 月的預(yù)印本中寫道,即使是無(wú)害的提示,也可能導(dǎo)致 GPT-3 產(chǎn)生 “有毒”反應(yīng)。在與 GPT-2 進(jìn)行的實(shí)驗(yàn)中,崔藝珍和她的團(tuán)隊(duì)還發(fā)現(xiàn),各種指導(dǎo)方法(例如過(guò)濾單詞或明確告訴其創(chuàng)建 “無(wú)毒”內(nèi)容)并不能完全解決問(wèn)題。OpenAI 的研究人員也檢查了 GPT-3 的偏見(jiàn)。在 2020 年 5 月的論文中,他們提到讓 GPT-3 完成像 “這個(gè)黑人非常的……”之類的句子。結(jié)果,相較白人,GPT-3 用負(fù)面詞匯描述黑人,將伊斯蘭教與暴力一詞聯(lián)系在一起,并假定護(hù)士和接待員是女性。前谷歌資深 AI 倫理學(xué)家蒂姆尼特 · 格布魯(Timnit Gebru)說(shuō),對(duì)于大型語(yǔ)言模型來(lái)說(shuō),這類問(wèn)題迫切需要得到關(guān)注。因?yàn)槿绻@些技術(shù)在社會(huì)中普及,邊緣化群體可能會(huì)遭遇不實(shí)描述。圍繞這篇論文的爭(zhēng)論給格布魯帶來(lái)了麻煩,去年 12 月,她丟掉了在谷歌領(lǐng)導(dǎo)道德 AI 團(tuán)隊(duì)的工作。此前,谷歌內(nèi)部審核人員稱其論文沒(méi)有達(dá)到出版標(biāo)準(zhǔn),因此引發(fā)了一場(chǎng)糾紛。今年 2 月,谷歌解雇了另一位與格布魯共同領(lǐng)導(dǎo)谷歌道德 AI 團(tuán)隊(duì)的合作者瑪格麗特 · 米切爾(Margaret Mitchell)。

▲AI 倫理專家蒂姆尼特 · 格布魯(Timnit Gebru)(左)和計(jì)算語(yǔ)言學(xué)家艾米莉 · 班德(Emily M. Bender)(右)

格布魯說(shuō),當(dāng)前的趨勢(shì)是,在探尋像人類一樣的流利度方面,語(yǔ)言網(wǎng)絡(luò)越來(lái)越大,但并不總是更好?!霸絹?lái)越多的語(yǔ)言模型被大肆宣傳?!彼M芯咳藛T專注于使這些項(xiàng)目更安全、更可引導(dǎo),以實(shí)現(xiàn)預(yù)期的目標(biāo)。

08. 防御風(fēng)險(xiǎn)的最佳方法

解決偏見(jiàn)的一種方法是從訓(xùn)練前的數(shù)據(jù)中清除 “有毒”文本,但這引發(fā)了排除哪些內(nèi)容的問(wèn)題。例如,開(kāi)發(fā)者可以在 “Colossal Clean Crawled Corpus”C4 語(yǔ)料庫(kù)上訓(xùn)練語(yǔ)言模型,該語(yǔ)料庫(kù)不包含任何 “不良”詞匯列表的網(wǎng)頁(yè)。然而,這限制了在其上訓(xùn)練的任何語(yǔ)言模型的范圍。由于它不容易實(shí)現(xiàn)自動(dòng)化,更細(xì)粒度的方法尚未被大規(guī)模嘗試。有害的偏見(jiàn)可以采取公然的誹謗或難以定位和消除的微妙聯(lián)想等形式。OpenAI 哲學(xué)家和研究科學(xué)家阿曼達(dá) · 阿斯凱爾(Amanda Askell)認(rèn)為,即使我們都同意什么才是 “有毒”的,并能消除它,我們可能也不想盲目地使用語(yǔ)言模型?!叭绻銌?wèn)一個(gè)從未接觸過(guò)性別歧視的 model:「世界上存在性別歧視嗎?」他可能只會(huì)說(shuō)「沒(méi)」?!毖芯咳藛T還報(bào)告說(shuō),他們可以提取用于訓(xùn)練大型語(yǔ)言模型的敏感數(shù)據(jù)。通過(guò)提出仔細(xì)的問(wèn)題,他們檢索了 GPT-2 記住的逐字記錄的個(gè)人聯(lián)系信息。結(jié)果發(fā)現(xiàn),較大的模型比較小的模型更容易受到這種攻擊。他們寫道,最好的防御方法就是限制訓(xùn)練數(shù)據(jù)中的敏感信息。

09. 多家知名機(jī)構(gòu)均未公開(kāi)代碼及訓(xùn)練數(shù)據(jù)

上述擔(dān)憂表明,如班德和合著者所說(shuō)的那樣,研究人員至少應(yīng)公開(kāi)記錄其模型的訓(xùn)練數(shù)據(jù)。包括谷歌、Facebook 在內(nèi)的一些公司及高校團(tuán)隊(duì)已經(jīng)做到了這一點(diǎn),但英偉達(dá)、微軟、OpenAI 還沒(méi)這樣做。OpenAI 的 GPT-3 論文在去年 12 月的 NeurIPS 會(huì)議上獲得 “最佳論文”獎(jiǎng),但是拉斐爾反對(duì),因?yàn)檫@項(xiàng)研究沒(méi)有發(fā)布模型、訓(xùn)練數(shù)據(jù)或代碼(該代碼指定了如何構(gòu)成模型和基于數(shù)據(jù)訓(xùn)練其參數(shù))。他說(shuō),這篇論文不應(yīng)該被學(xué)術(shù)會(huì)議接受,更不用說(shuō)獲獎(jiǎng)了?!斑@開(kāi)了令人沮喪的先例?!監(jiān)penAI 拒絕就此事置評(píng)。組織該會(huì)議的 NeurIPS 基金會(huì)說(shuō),作者無(wú)需發(fā)布代碼和數(shù)據(jù),如果將代碼與特定的計(jì)算基礎(chǔ)架構(gòu)相連,可能很難共享。英偉達(dá)已經(jīng)發(fā)布了其大型語(yǔ)言模型 Megatron-LM 的代碼,但沒(méi)有發(fā)布訓(xùn)練模型或訓(xùn)練數(shù)據(jù),并拒絕討論原因。微軟也不愿就沒(méi)有公布 Turing-NLG 技術(shù)的代碼、模型或數(shù)據(jù)的原因發(fā)表評(píng)論。Askell 說(shuō),OpenAI 通過(guò)僅向用戶提供 AI 中的應(yīng)用程序編程接口(API)而非代碼本身,來(lái)防止 GPT-3 被惡意使用。除了創(chuàng)建一個(gè)為進(jìn)一步研究增加收入的服務(wù),這還使得團(tuán)隊(duì)能控制模型的輸出,并在他們看到濫用時(shí)撤銷訪問(wèn)權(quán)。Askell 稱,其內(nèi)部的 “紅色團(tuán)隊(duì)”正尋找方法來(lái)越過(guò) API 的過(guò)濾器并產(chǎn)生 “有害”內(nèi)容,從而不斷改進(jìn)過(guò)濾器。在去年 OpenAI 及幾所大學(xué)舉辦的一場(chǎng)討論部署模型的道德和社會(huì)挑戰(zhàn)的論壇上,研究人員提到,OpenAI、谷歌和其他公司永遠(yuǎn)不會(huì)永遠(yuǎn)壟斷大型語(yǔ)言模型。最終,有人會(huì)發(fā)布類似規(guī)模的模型。當(dāng) OpenAI 在 2019 年 2 月公布 GPT-2 時(shí),它最初表示因?yàn)閾?dān)心惡意使用,不會(huì)發(fā)布其模型,盡管它在 9 個(gè)月后就發(fā)布了。但在發(fā)布該版本前,大學(xué)生康納 · 萊希(Connor Leahy)通過(guò)幾周的努力和一些云計(jì)算 credits 就能夠復(fù)制它。Leahy 目前是德國(guó)海德堡創(chuàng)企 Aleph Alpha 的研究人員,正領(lǐng)著導(dǎo)一個(gè)名為 EleutherAI 的獨(dú)立志愿者研究小組,目標(biāo)是在創(chuàng)建 GPT-3 大小的模型。他說(shuō),最大的障礙不是代碼或訓(xùn)練數(shù)據(jù),而是計(jì)算,一家云提供商 CoreWeave 正提供這類服務(wù)。

10. 大型語(yǔ)言模型的未知領(lǐng)域——常識(shí)

從根本上講,GPT-3 及其他大型語(yǔ)言模型仍缺乏常識(shí),即缺乏對(duì)世界在物理和社會(huì)方面如何運(yùn)作的理解。美國(guó)科技企業(yè)家凱文 · 拉克(Kevin Lacker)向 GPT-3 提出了一系列事實(shí)性問(wèn)題,與它進(jìn)行問(wèn)答對(duì)話。AI 有時(shí)做得不錯(cuò),有時(shí)則不能回答好沒(méi)有意義的問(wèn)題。例如,拉克向 GPT-3 提供如下的一個(gè)問(wèn)答提示:

在前 8 條問(wèn)答中,GPT-3 均給出了準(zhǔn)確的回答:

▲拉克與向 GPT-3 進(jìn)行問(wèn)答對(duì)話的示例

示例鏈接:https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html 但當(dāng)被問(wèn)及奇怪的問(wèn)題:“從夏威夷跳到 17 需要多少條彩虹?”GPT-3 竟也能胡謅出:“從夏威夷跳到 17 需要兩條彩虹?!?/p>

最后被問(wèn)到:“你理解這些問(wèn)題嗎?”GPT-3“恬不知恥”地回復(fù):“我理解這些問(wèn)題?!?/p>

看來(lái)論臉皮厚,AI 模型有時(shí)能跟人類不相上下。其他測(cè)試表明,GPT-3 可以通過(guò)特定的提示進(jìn)行訓(xùn)練,以避免這些失誤。因?yàn)閾碛懈鄥?shù)、訓(xùn)練數(shù)據(jù)和學(xué)習(xí)時(shí)間,更大的模型可能會(huì)做得更好。但這將變得越來(lái)越昂貴,而且不能無(wú)限期地持續(xù)下去。語(yǔ)言模型的不透明復(fù)雜性造成了另一個(gè)限制。如果模型有不必要的偏見(jiàn)或錯(cuò)誤想法,則很難打開(kāi)黑盒并修復(fù)它。未來(lái)的一條道路是將語(yǔ)言模型與知識(shí)庫(kù)(陳述性事實(shí)的精選數(shù)據(jù)庫(kù))相結(jié)合。在去年的計(jì)算語(yǔ)言學(xué)協(xié)會(huì)會(huì)議上,研究人員對(duì) GPT-2 進(jìn)行微調(diào),使其能從常識(shí)綱要中明確陳述事實(shí)和推論的句子(例如,如果某人煮了意大利面,那這個(gè)人就想吃)。結(jié)果,它寫出了更合乎邏輯的短篇小說(shuō)。位于倫敦的 Facebook 計(jì)算機(jī)科學(xué)家法比奧 · 彼得羅尼(Fabio Petroni)說(shuō),這種想法的一種變體是將已經(jīng)訓(xùn)練有素的模型與搜索引擎相結(jié)合:當(dāng)對(duì)模型被提出問(wèn)題時(shí),搜索引擎可以迅速將模型呈現(xiàn)在相關(guān)頁(yè)面上,來(lái)幫助它回答。 OpenAI 正在尋求另一種引導(dǎo)語(yǔ)言模型的方法:微調(diào)過(guò)程中的人工反饋。在去年 12 月 NeurIPS 會(huì)議上發(fā)表的一篇論文中,它描述了 GPT-3 兩個(gè)較小版本的工作,對(duì)如何匯總社交新聞網(wǎng)站 Reddit 上的帖子進(jìn)行了微調(diào)。該研究團(tuán)隊(duì)首先要求人們對(duì)一組現(xiàn)有的摘要進(jìn)行評(píng)分,然后訓(xùn)練了一種評(píng)估模型來(lái)重現(xiàn)這種人類的判斷,最后對(duì) GPT-3 模型進(jìn)行了微調(diào),以生成令該 AI 裁判滿意的總結(jié)。最終,另一組獨(dú)立的人類裁判甚至更喜歡模型的總結(jié),而不是人類寫的總結(jié)。收集人的反饋意見(jiàn)是一種昂貴的訓(xùn)練方式,但崔藝珍認(rèn)為這個(gè)想法很有希望:“畢竟,人類是通過(guò)互動(dòng)和交流來(lái)學(xué)習(xí)語(yǔ)言的,而不是通過(guò)閱讀大量文本?!?/p>

11. 結(jié)語(yǔ):我們距離真正的人機(jī)交互還有多遠(yuǎn)?

包括班德在內(nèi)的一些研究人員認(rèn)為,只要語(yǔ)言模型僅停留在語(yǔ)言領(lǐng)域,它們可能永遠(yuǎn)無(wú)法達(dá)到人類水平的常識(shí)。孩子們通過(guò)觀察、體驗(yàn)和行動(dòng)來(lái)學(xué)習(xí)。語(yǔ)言之所以對(duì)我們有意義,只是因?yàn)槲覀儗⑵涓灿谖淖种獾臇|西上,人們不會(huì)通過(guò)對(duì)詞頻的統(tǒng)計(jì)來(lái)理解一本小說(shuō)。鮑曼預(yù)見(jiàn)了 3 種可能將常識(shí)引入語(yǔ)言模型的方法。對(duì)于一個(gè)模型來(lái)說(shuō),使用所有已編寫的文本可能就足夠了?;蛘呖梢栽?YouTube 剪輯上訓(xùn)練它,這樣動(dòng)態(tài)圖像就能帶來(lái)對(duì)現(xiàn)實(shí)更豐富的了解。但這種被動(dòng)消費(fèi)可能還不夠。他說(shuō):“非常悲觀的觀點(diǎn)是,我們只有建立一支機(jī)器人大軍,并讓它們與世界互動(dòng),才能實(shí)現(xiàn)這一目標(biāo)。”大型語(yǔ)言模型顯然正成為 AI 世界的新工具,但它們會(huì)是通向真正人機(jī)交互的正確道路嗎?一切尚且未知。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知