首頁 > 智能時代>人工智能

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

量子位 2022/3/18 14:09:02 責(zé)編：長河

評論：

語言模型總是給出“驢唇不對馬嘴”的答案，已經(jīng)成為它最飽受詬病的問題之一。現(xiàn)在，DeepMind 想到了一個解決辦法 —— 讓模型像人類一樣，學(xué)會“谷歌一下”，回答問題同時還能給出論據(jù)。

讓模型像人類一樣，學(xué)會“谷歌一下”

這個模型名叫 GopherCite，當(dāng)你問它：

GopherCite 是如何找到論據(jù)來源的？

它會回答：

通過谷歌搜索檢索相關(guān)文檔。

同時還給出了答案的依據(jù)，援引自 DeepMind 發(fā)布這項研究的頁面。

DeepMind 頁面

而且遇到實在不懂的問題，它還會說“I don’t know.”，不會強行給一個錯誤答案。訓(xùn)練結(jié)果顯示，該模型在自然問題數(shù)據(jù)集、ELI5 數(shù)據(jù)集上的正確率分別可以達(dá)到 90%、80%，接近人類水平。

用強化學(xué)習(xí)訓(xùn)練 AI 查谷歌

首先我們來看一下 GopherCite 的效果如何。當(dāng)被問道：

在 Scooby Doo 中，Scooby 是什么動物？

GopherCite 回答道：

一只大丹犬。
摘自維基百科 Scooby-Doo。這是周六早上播出的系列青少年動畫片，主角包括弗雷德?瓊斯等，以及一只名叫 Scooby-Doo、會說話的大丹犬。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

不難看出，在學(xué)會找論據(jù)后，AI 給出的回答靠譜多了。

事實上，GopherCite 的前輩 —— 超大語言模型 Gopher，此前回答問題時的表現(xiàn)就要差勁很多。Gopher 是 DeepMind 在去年年底發(fā)布的 NLP 模型，包含 2800 億參數(shù)。它基于 Transformer 架構(gòu)，在 10.5TB 大小的 MassiveText 語料庫上進(jìn)行訓(xùn)練。

在這里，DeepMind 舉了一個例子來說明。讓 Gopher 和 GopherCite 回答同一個問題：

普萊西德湖一共舉辦過幾次冬奧會？

Gopher 回答（是錯的）：

普萊西德湖在 1932 年、1936 年、1980 年舉辦過冬奧會。

但 GopherCite 就答對了：

兩次。

并給出了嚴(yán)謹(jǐn)?shù)睦碛桑?/p>

援引自美國主辦奧運會城市史。1932 年、1980 年在普萊西德湖舉辦過冬季奧運會；1936 年、1984 年在洛杉磯舉辦過夏季奧運會。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

那么 GopherCite 的具體工作原理是怎樣的呢？在 Gopher 的基礎(chǔ)上，研究人員開發(fā)了一種獎勵機(jī)制，也就是用上強化學(xué)習(xí)。在收到問題后，模型會訪問谷歌搜索的 API 來找到相關(guān)的網(wǎng)頁，獲取 top-K 結(jié)果。

（top-K 操作，即從分?jǐn)?shù)集合中找到 k 個最大或最小元素，是一個重要的機(jī)器學(xué)習(xí)模型組件，被廣泛用于信息檢索和數(shù)據(jù)挖掘中。）

然后它會根據(jù)問題來生成一些答案，答案數(shù)量 N 會大于 K。這些答案同時會帶有自己的證據(jù)，即從網(wǎng)頁上搜索到的包含答案的文段。接下來，系統(tǒng)會對這些答案進(jìn)行打分，最終輸出得分最高的答案。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

在推理過程中，模型采樣會按照循環(huán)在文檔上不斷迭代，每個循環(huán)都會從單個文檔中盡可能多地顯示上下文內(nèi)容，然后對文本重新排序并返回給上一步。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

此外，這個模型還會計算最終生成答案的質(zhì)量，如果生成答案太差，它就會選擇不回答。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

結(jié)果顯示，在自然問題數(shù)據(jù)集上，GopherCite 回答 70% 的問題時，正確率達(dá)到 90%。在 ELI5Filtered 數(shù)據(jù)集上回答 70% 的問題時，正確率為 80% 左右。

DeepMind 表示這種訓(xùn)練模式和 LaMDA 有些類似。LaMDA 是谷歌在去年 I / O 大會上發(fā)布的一個對話模型，它能夠在“聽懂”人類指令的基礎(chǔ)上，對答如流并保證邏輯、事實正確。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

不同的是，LaMDA 有時會直接給人分享問題的相關(guān)鏈接，而 GopherCite 可以直接摘出相關(guān)論據(jù)文段。另外，OpenAI 最近也開發(fā)了一個網(wǎng)頁版 GPT （WebGPT），同樣也是用類似的方法來校正 GPT-3。

DeepMind 表示，WebGPT 是通過多次訪問網(wǎng)頁來組織答案，GopherCite 則是側(cè)重于讀取長文段。

還是會有失誤

雖然懂得援引資料了，但是 GopherCite 有時還是會生搬硬套。比如當(dāng)你問它“喝了紅牛會怎么樣？”，它的回答是“翅膀”。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

這是源于紅牛的廣告語：“它會給你翅膀”。顯然讓它理解比喻還是有點困難…… 也有網(wǎng)友吐槽說，可能人類自己去谷歌搜索會更快。

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

你覺得呢？

參考資料：

https://deepmind.com/research/publications/2022/GopherCite-Teaching-Language-Models-To-Support-Answers-With-Verified-Quotes

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

終于不瞎編了：AI 學(xué)會了“谷歌一下”，回答問題正確率達(dá) 90%

用強化學(xué)習(xí)訓(xùn)練 AI 查谷歌

還是會有失誤

相關(guān)文章