設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 也會“查百度”了,OpenAI 新成果:讓 GPT-3 回答開放式問題

智東西 2021/12/17 22:07:03 責編:汪淼

12 月 17 日消息,本周四,OpenAI 基于 AI 模型 GPT-3 發(fā)布了 WebGPT,該模型可在線搜索問題組織答案,并添加引用來源,更準確地回答開放式問題。

在回答問題時,WebGPT 可以通過瀏覽器進行搜索,在不同鏈接中尋找相關答案,并在最后組織答案時,將引用來源標注上去,使得答案來源的準確性有跡可循。

2020 年 6 月,OpenAI 公開了當時史上最強大 AI 模型 GPT-3,花費數千萬美元,訓練量達 2000 億個單詞,WebGPT 模型是對 GPT-3 進行微調后的成果。

OpenAI 稱:“我們很高興開發(fā)更通用、智能的 AI 模型,但挑戰(zhàn)依然存在,例如應對不熟悉的開放式問題時,AI 模型的回答還不是很準確?!?/p>

一、長江跟尼羅河誰更長?AI 幫你上網搜答案

像 GPT-3 這樣的語言模型可以充分應對不同的任務,但對于那些在現實世界中都沒有準確答案的任務,這個模型往往會產生一些充滿“迷惑”的信息。

為了解決這個問題,研究人員教 AI 模型使用網絡瀏覽器對問題進行“百度”。該模型中包含“搜索……”、“在頁面中查找:……”或“引用:……”之類的命令,遇到開放式問題,WebGPT 可以模仿人類搜索的行為來自動檢索答案。

通過這種方式,WebGPT 模型就學會了從網頁中收集段落,然后使用這些段落來撰寫答案。

當被問道:“尼羅河和長江誰更長?”

WebGPT:“尼羅河比長江長。尼羅河在維多利亞湖和地中海之間綿延 6650 公里(4130 英里)。長江從青海唐古拉山脈的源頭到東海,全長 6300 公里(3915 英里)?!?/p>

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲ WebGPT 通過檢索回答“尼羅河和長江誰更長?”的問題

當被問道:“為什么蘇伊士運河在 2021 年 3 月被封鎖?”

WebGPT:“蘇伊士運河于 2021 年 3 月被封鎖,因為一艘名為‘永遠’的集裝箱船擱淺在那里。這艘船曾載著 20000 箱的貨物,在有兩條水道的運河河道被強風吹進了運河中,因此其他船只無法繞過曾經給定的航道。蘇伊士運河管理局雇傭了一艘拖船將這條曾經被遺棄的運河拖出運河。運河阻塞對歐洲、亞洲和中東之間的貿易產生了重大的負面影響。這引發(fā)了集裝箱現貨運價的新一輪飆升,該運價最終開始從創(chuàng)紀錄的高點回落?!?/p>

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

當被問道:《哈利波特》系列和《指環(huán)王》哪一部有更多的單詞?

WebGPT:“《指環(huán)王》三部曲比《哈利波特》系列包含更多的單詞。包括《霍比特人》,整個《指環(huán)王》系列包含 576459 個單詞。相比之下,《哈利波特》系列包含 1084170 個單詞?!?/p>

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

研究小組對 GPT-3 的微調與最開始對 GPT-3 的訓練方法一樣。他們首先訓練模型模仿人們回答問題的方式,這使它能夠使用基于瀏覽器檢索到的內容來回答問題。

然后,他們通過訓練激勵模型來預測人類偏好,并使用強化學習或拒絕采樣(隨機采樣方式)對其進行優(yōu)化,從而提高模型答案的有用性和準確性。

二、超一半回答優(yōu)于人類,但可能引用不可信來源

ELI5 是一個用來對機器學習模型調試的 Python 庫,研究人員挑選了這個庫中“像我五歲一樣解釋(Explain Like I'm Five)”欄目里的開放式問題,發(fā)現經過系統(tǒng)訓練的 WebGPT 已經可以回答其中的問題了。

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲ ELI5 中的評估結果

研究人員說,他們訓練了三種不同的 AI 模型,對應于三種不同的 inference time(推理時間)來進行計算。結果表明,表現最好的模型產生的答案,在 56% 的時間里比人類演示者寫的答案更受歡迎,并且答案的事實準確性相近。

研究人員稱,未來他們將使用人工反饋來改進模型的答案,可能會最終超越人類的答案

對于模型的訓練分布(training distribution)來說,這三個模型中,最好的模型的答案與人類演示者所寫的答案幾乎一樣準確。然而,研究人員稱,實現所有模型都能達到穩(wěn)健是一個挑戰(zhàn)。

為了探討這個問題,研究人員在 TruthfulQA 上評估了該模型,TruthfulQA 是一個數據集,包含了很多容易產生誤解的問題,可以測試模型是否會產生常見的誤解。在這個過程中,問題的答案會根據真實性和信息量進行評分,例如,“我沒有評論”這個答案就被認為是真實的但不提供信息。

GPT-3自己上網搜答案!OpenAI新成果,讓AI回答開放式問題

▲ TruthfulQA 中的評估結果

WebGPT 模型在 TruthfulQA 上的表現優(yōu)于 GPT-3,并表現出更有利的縮放特性,不過模型落后于人類答案的部分原因是它們有時會引用不可靠的來源。研究人員希望使用對抗性訓練等技術來減少這些失敗的頻率。

三、公開信息佐證,AI 也可以加引用

為了增加人類反饋對提高事實準確性的作用,研究人員必須能夠評估模型產生答案的事實準確性。對于研究人員來說,這極具挑戰(zhàn)性,因為有些答案可能是主觀的或含糊不清的。

出于這個原因,研究人員為模型增加了“引用來源”功能。這使人們可以通過檢查答案,是否得到了可靠的信息支持,并評估事實的準確性。除了使任務更易于管理外,這項功能還減少了答案歧義。

然而,這種方法也提出了許多問題。來源可靠的判定標準?哪些聲明足夠確定不需要支持?在評估事實準確性和其他標準之間應該進行什么權衡?所有這些都是艱難的判斷。

研究人員認為,WebGPT 仍然存在一些基本錯誤,很多細微差別沒有被發(fā)現?!暗覀冾A計,隨著人工智能系統(tǒng)的改進,這類決策將變得更加重要,需要跨學科研究來制定既實用又符合認知的標準,我們還預計透明度等進一步的考慮很重要?!?/p>

WebGPT 通過引用來源其實不足以評估事實準確性。研究人員提到,一個足夠強大的模型會精心挑選它認為可以令人信服的來源,即使這個來源有可能沒有準確的證據。研究人員提出了一種新的解決辦法就是:增加辯論過程來獲得答案

WebGPT 模型通常比 GPT-3 更“真實”,它生成錯誤陳述的頻率也更低,但這個模型仍然存在很多風險。OpenAI 說:“帶有引用的答案通常被認為具有權威性,這可能會掩蓋我們的模型仍然存在基本錯誤的事實?!盬ebGPT 還傾向于強化用戶的現有信念。

除了這些部署風險之外,如果允許 WebGPT 向各種瀏覽器發(fā)送查詢并跟蹤 Web 上已存在的鏈接,這也可能會增加新的風險。

結語:GPT-3 大模型取得新進展

曾經可以寫小說、敲代碼、編劇本的 GPT-3 模型在研究人員手中,又學會了自動檢索。但根據 GPT-3 的訓練經驗來看,這些風險可能還不足以產生危機。然而,隨著模型的智能化逐漸深入,在未來是否會產生更大的風險?

人類反饋和 Web 瀏覽器等工具為實現穩(wěn)健、真實的通用 AI 模型提供了一條有希望的途徑。OpenAI 稱,AI 模型在充滿挑戰(zhàn)或不熟悉的情況下不斷掙扎,但在這個方向上他們仍然取得了重大進展。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:OpenAI,GPT3WebGPT

軟媒旗下網站: IT之家 最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知