AI 也會(huì)“查百度”了，OpenAI 新成果：讓 GPT-3 回答開放式問題

智東西 2021/12/17 22:07:03 責(zé)編：汪淼

評(píng)論：

12 月 17 日消息，本周四，OpenAI 基于 AI 模型 GPT-3 發(fā)布了 WebGPT，該模型可在線搜索問題組織答案，并添加引用來源，更準(zhǔn)確地回答開放式問題。

在回答問題時(shí)，WebGPT 可以通過瀏覽器進(jìn)行搜索，在不同鏈接中尋找相關(guān)答案，并在最后組織答案時(shí)，將引用來源標(biāo)注上去，使得答案來源的準(zhǔn)確性有跡可循。

2020 年 6 月，OpenAI 公開了當(dāng)時(shí)史上最強(qiáng)大 AI 模型 GPT-3，花費(fèi)數(shù)千萬美元，訓(xùn)練量達(dá) 2000 億個(gè)單詞，WebGPT 模型是對(duì) GPT-3 進(jìn)行微調(diào)后的成果。

OpenAI 稱：“我們很高興開發(fā)更通用、智能的 AI 模型，但挑戰(zhàn)依然存在，例如應(yīng)對(duì)不熟悉的開放式問題時(shí)，AI 模型的回答還不是很準(zhǔn)確?！?/p>

一、長(zhǎng)江跟尼羅河誰更長(zhǎng)？AI 幫你上網(wǎng)搜答案

像 GPT-3 這樣的語言模型可以充分應(yīng)對(duì)不同的任務(wù)，但對(duì)于那些在現(xiàn)實(shí)世界中都沒有準(zhǔn)確答案的任務(wù)，這個(gè)模型往往會(huì)產(chǎn)生一些充滿“迷惑”的信息。

為了解決這個(gè)問題，研究人員教 AI 模型使用網(wǎng)絡(luò)瀏覽器對(duì)問題進(jìn)行“百度”。該模型中包含“搜索……”、“在頁面中查找：……”或“引用：……”之類的命令，遇到開放式問題，WebGPT 可以模仿人類搜索的行為來自動(dòng)檢索答案。

通過這種方式，WebGPT 模型就學(xué)會(huì)了從網(wǎng)頁中收集段落，然后使用這些段落來撰寫答案。

當(dāng)被問道：“尼羅河和長(zhǎng)江誰更長(zhǎng)？”

WebGPT：“尼羅河比長(zhǎng)江長(zhǎng)。尼羅河在維多利亞湖和地中海之間綿延 6650 公里（4130 英里）。長(zhǎng)江從青海唐古拉山脈的源頭到東海，全長(zhǎng) 6300 公里（3915 英里）。”

GPT-3自己上網(wǎng)搜答案！OpenAI新成果，讓AI回答開放式問題

▲ WebGPT 通過檢索回答“尼羅河和長(zhǎng)江誰更長(zhǎng)？”的問題

當(dāng)被問道：“為什么蘇伊士運(yùn)河在 2021 年 3 月被封鎖？”

WebGPT：“蘇伊士運(yùn)河于 2021 年 3 月被封鎖，因?yàn)橐凰颐麨椤肋h(yuǎn)’的集裝箱船擱淺在那里。這艘船曾載著 20000 箱的貨物，在有兩條水道的運(yùn)河河道被強(qiáng)風(fēng)吹進(jìn)了運(yùn)河中，因此其他船只無法繞過曾經(jīng)給定的航道。蘇伊士運(yùn)河管理局雇傭了一艘拖船將這條曾經(jīng)被遺棄的運(yùn)河拖出運(yùn)河。運(yùn)河阻塞對(duì)歐洲、亞洲和中東之間的貿(mào)易產(chǎn)生了重大的負(fù)面影響。這引發(fā)了集裝箱現(xiàn)貨運(yùn)價(jià)的新一輪飆升，該運(yùn)價(jià)最終開始從創(chuàng)紀(jì)錄的高點(diǎn)回落?！?/p>

GPT-3自己上網(wǎng)搜答案！OpenAI新成果，讓AI回答開放式問題

當(dāng)被問道：《哈利波特》系列和《指環(huán)王》哪一部有更多的單詞？

WebGPT：“《指環(huán)王》三部曲比《哈利波特》系列包含更多的單詞。包括《霍比特人》，整個(gè)《指環(huán)王》系列包含 576459 個(gè)單詞。相比之下，《哈利波特》系列包含 1084170 個(gè)單詞。”

GPT-3自己上網(wǎng)搜答案！OpenAI新成果，讓AI回答開放式問題

研究小組對(duì) GPT-3 的微調(diào)與最開始對(duì) GPT-3 的訓(xùn)練方法一樣。他們首先訓(xùn)練模型模仿人們回答問題的方式，這使它能夠使用基于瀏覽器檢索到的內(nèi)容來回答問題。

然后，他們通過訓(xùn)練激勵(lì)模型來預(yù)測(cè)人類偏好，并使用強(qiáng)化學(xué)習(xí)或拒絕采樣（隨機(jī)采樣方式）對(duì)其進(jìn)行優(yōu)化，從而提高模型答案的有用性和準(zhǔn)確性。

二、超一半回答優(yōu)于人類，但可能引用不可信來源

ELI5 是一個(gè)用來對(duì)機(jī)器學(xué)習(xí)模型調(diào)試的 Python 庫，研究人員挑選了這個(gè)庫中“像我五歲一樣解釋（Explain Like I'm Five）”欄目里的開放式問題，發(fā)現(xiàn)經(jīng)過系統(tǒng)訓(xùn)練的 WebGPT 已經(jīng)可以回答其中的問題了。

GPT-3自己上網(wǎng)搜答案！OpenAI新成果，讓AI回答開放式問題

▲ ELI5 中的評(píng)估結(jié)果

研究人員說，他們訓(xùn)練了三種不同的 AI 模型，對(duì)應(yīng)于三種不同的 inference time（推理時(shí)間）來進(jìn)行計(jì)算。結(jié)果表明，表現(xiàn)最好的模型產(chǎn)生的答案，在 56% 的時(shí)間里比人類演示者寫的答案更受歡迎，并且答案的事實(shí)準(zhǔn)確性相近。

研究人員稱，未來他們將使用人工反饋來改進(jìn)模型的答案，可能會(huì)最終超越人類的答案。

對(duì)于模型的訓(xùn)練分布（training distribution）來說，這三個(gè)模型中，最好的模型的答案與人類演示者所寫的答案幾乎一樣準(zhǔn)確。然而，研究人員稱，實(shí)現(xiàn)所有模型都能達(dá)到穩(wěn)健是一個(gè)挑戰(zhàn)。

為了探討這個(gè)問題，研究人員在 TruthfulQA 上評(píng)估了該模型，TruthfulQA 是一個(gè)數(shù)據(jù)集，包含了很多容易產(chǎn)生誤解的問題，可以測(cè)試模型是否會(huì)產(chǎn)生常見的誤解。在這個(gè)過程中，問題的答案會(huì)根據(jù)真實(shí)性和信息量進(jìn)行評(píng)分，例如，“我沒有評(píng)論”這個(gè)答案就被認(rèn)為是真實(shí)的但不提供信息。

GPT-3自己上網(wǎng)搜答案！OpenAI新成果，讓AI回答開放式問題

▲ TruthfulQA 中的評(píng)估結(jié)果

WebGPT 模型在 TruthfulQA 上的表現(xiàn)優(yōu)于 GPT-3，并表現(xiàn)出更有利的縮放特性，不過模型落后于人類答案的部分原因是它們有時(shí)會(huì)引用不可靠的來源。研究人員希望使用對(duì)抗性訓(xùn)練等技術(shù)來減少這些失敗的頻率。

三、公開信息佐證，AI 也可以加引用

為了增加人類反饋對(duì)提高事實(shí)準(zhǔn)確性的作用，研究人員必須能夠評(píng)估模型產(chǎn)生答案的事實(shí)準(zhǔn)確性。對(duì)于研究人員來說，這極具挑戰(zhàn)性，因?yàn)橛行┐鸢缚赡苁侵饔^的或含糊不清的。

出于這個(gè)原因，研究人員為模型增加了“引用來源”功能。這使人們可以通過檢查答案，是否得到了可靠的信息支持，并評(píng)估事實(shí)的準(zhǔn)確性。除了使任務(wù)更易于管理外，這項(xiàng)功能還減少了答案歧義。

然而，這種方法也提出了許多問題。來源可靠的判定標(biāo)準(zhǔn)？哪些聲明足夠確定不需要支持？在評(píng)估事實(shí)準(zhǔn)確性和其他標(biāo)準(zhǔn)之間應(yīng)該進(jìn)行什么權(quán)衡？所有這些都是艱難的判斷。

研究人員認(rèn)為，WebGPT 仍然存在一些基本錯(cuò)誤，很多細(xì)微差別沒有被發(fā)現(xiàn)。“但我們預(yù)計(jì)，隨著人工智能系統(tǒng)的改進(jìn)，這類決策將變得更加重要，需要跨學(xué)科研究來制定既實(shí)用又符合認(rèn)知的標(biāo)準(zhǔn)，我們還預(yù)計(jì)透明度等進(jìn)一步的考慮很重要?！?/p>

WebGPT 通過引用來源其實(shí)不足以評(píng)估事實(shí)準(zhǔn)確性。研究人員提到，一個(gè)足夠強(qiáng)大的模型會(huì)精心挑選它認(rèn)為可以令人信服的來源，即使這個(gè)來源有可能沒有準(zhǔn)確的證據(jù)。研究人員提出了一種新的解決辦法就是：增加辯論過程來獲得答案。

WebGPT 模型通常比 GPT-3 更“真實(shí)”，它生成錯(cuò)誤陳述的頻率也更低，但這個(gè)模型仍然存在很多風(fēng)險(xiǎn)。OpenAI 說：“帶有引用的答案通常被認(rèn)為具有權(quán)威性，這可能會(huì)掩蓋我們的模型仍然存在基本錯(cuò)誤的事實(shí)?！盬ebGPT 還傾向于強(qiáng)化用戶的現(xiàn)有信念。

除了這些部署風(fēng)險(xiǎn)之外，如果允許 WebGPT 向各種瀏覽器發(fā)送查詢并跟蹤 Web 上已存在的鏈接，這也可能會(huì)增加新的風(fēng)險(xiǎn)。

結(jié)語：GPT-3 大模型取得新進(jìn)展

曾經(jīng)可以寫小說、敲代碼、編劇本的 GPT-3 模型在研究人員手中，又學(xué)會(huì)了自動(dòng)檢索。但根據(jù) GPT-3 的訓(xùn)練經(jīng)驗(yàn)來看，這些風(fēng)險(xiǎn)可能還不足以產(chǎn)生危機(jī)。然而，隨著模型的智能化逐漸深入，在未來是否會(huì)產(chǎn)生更大的風(fēng)險(xiǎn)？

人類反饋和 Web 瀏覽器等工具為實(shí)現(xiàn)穩(wěn)健、真實(shí)的通用 AI 模型提供了一條有希望的途徑。OpenAI 稱，AI 模型在充滿挑戰(zhàn)或不熟悉的情況下不斷掙扎，但在這個(gè)方向上他們?nèi)匀蝗〉昧酥卮筮M(jìn)展。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 也會(huì)“查百度”了，OpenAI 新成果：讓 GPT-3 回答開放式問題

一、長(zhǎng)江跟尼羅河誰更長(zhǎng)？AI 幫你上網(wǎng)搜答案

二、超一半回答優(yōu)于人類，但可能引用不可信來源

三、公開信息佐證，AI 也可以加引用

結(jié)語：GPT-3 大模型取得新進(jìn)展

相關(guān)文章

一、長(zhǎng)江跟尼羅河誰更長(zhǎng)？AI 幫你上網(wǎng)搜答案

二、超一半回答優(yōu)于人類，但可能引用不可信來源

三、公開信息佐證，AI 也可以加引用