12 月 17 日消息,本周四,OpenAI 基于 AI 模型 GPT-3 發(fā)布了 WebGPT,該模型可在線搜索問題組織答案,并添加引用來源,更準(zhǔn)確地回答開放式問題。
在回答問題時(shí),WebGPT 可以通過瀏覽器進(jìn)行搜索,在不同鏈接中尋找相關(guān)答案,并在最后組織答案時(shí),將引用來源標(biāo)注上去,使得答案來源的準(zhǔn)確性有跡可循。
2020 年 6 月,OpenAI 公開了當(dāng)時(shí)史上最強(qiáng)大 AI 模型 GPT-3,花費(fèi)數(shù)千萬美元,訓(xùn)練量達(dá) 2000 億個(gè)單詞,WebGPT 模型是對(duì) GPT-3 進(jìn)行微調(diào)后的成果。
OpenAI 稱:“我們很高興開發(fā)更通用、智能的 AI 模型,但挑戰(zhàn)依然存在,例如應(yīng)對(duì)不熟悉的開放式問題時(shí),AI 模型的回答還不是很準(zhǔn)確?!?/p>
一、長(zhǎng)江跟尼羅河誰更長(zhǎng)?AI 幫你上網(wǎng)搜答案
像 GPT-3 這樣的語言模型可以充分應(yīng)對(duì)不同的任務(wù),但對(duì)于那些在現(xiàn)實(shí)世界中都沒有準(zhǔn)確答案的任務(wù),這個(gè)模型往往會(huì)產(chǎn)生一些充滿“迷惑”的信息。
為了解決這個(gè)問題,研究人員教 AI 模型使用網(wǎng)絡(luò)瀏覽器對(duì)問題進(jìn)行“百度”。該模型中包含“搜索……”、“在頁面中查找:……”或“引用:……”之類的命令,遇到開放式問題,WebGPT 可以模仿人類搜索的行為來自動(dòng)檢索答案。
通過這種方式,WebGPT 模型就學(xué)會(huì)了從網(wǎng)頁中收集段落,然后使用這些段落來撰寫答案。
當(dāng)被問道:“尼羅河和長(zhǎng)江誰更長(zhǎng)?”
WebGPT:“尼羅河比長(zhǎng)江長(zhǎng)。尼羅河在維多利亞湖和地中海之間綿延 6650 公里(4130 英里)。長(zhǎng)江從青海唐古拉山脈的源頭到東海,全長(zhǎng) 6300 公里(3915 英里)。”
▲ WebGPT 通過檢索回答“尼羅河和長(zhǎng)江誰更長(zhǎng)?”的問題
當(dāng)被問道:“為什么蘇伊士運(yùn)河在 2021 年 3 月被封鎖?”
WebGPT:“蘇伊士運(yùn)河于 2021 年 3 月被封鎖,因?yàn)橐凰颐麨椤肋h(yuǎn)’的集裝箱船擱淺在那里。這艘船曾載著 20000 箱的貨物,在有兩條水道的運(yùn)河河道被強(qiáng)風(fēng)吹進(jìn)了運(yùn)河中,因此其他船只無法繞過曾經(jīng)給定的航道。蘇伊士運(yùn)河管理局雇傭了一艘拖船將這條曾經(jīng)被遺棄的運(yùn)河拖出運(yùn)河。運(yùn)河阻塞對(duì)歐洲、亞洲和中東之間的貿(mào)易產(chǎn)生了重大的負(fù)面影響。這引發(fā)了集裝箱現(xiàn)貨運(yùn)價(jià)的新一輪飆升,該運(yùn)價(jià)最終開始從創(chuàng)紀(jì)錄的高點(diǎn)回落?!?/p>
當(dāng)被問道:《哈利波特》系列和《指環(huán)王》哪一部有更多的單詞?
WebGPT:“《指環(huán)王》三部曲比《哈利波特》系列包含更多的單詞。包括《霍比特人》,整個(gè)《指環(huán)王》系列包含 576459 個(gè)單詞。相比之下,《哈利波特》系列包含 1084170 個(gè)單詞。”
研究小組對(duì) GPT-3 的微調(diào)與最開始對(duì) GPT-3 的訓(xùn)練方法一樣。他們首先訓(xùn)練模型模仿人們回答問題的方式,這使它能夠使用基于瀏覽器檢索到的內(nèi)容來回答問題。
然后,他們通過訓(xùn)練激勵(lì)模型來預(yù)測(cè)人類偏好,并使用強(qiáng)化學(xué)習(xí)或拒絕采樣(隨機(jī)采樣方式)對(duì)其進(jìn)行優(yōu)化,從而提高模型答案的有用性和準(zhǔn)確性。
二、超一半回答優(yōu)于人類,但可能引用不可信來源
ELI5 是一個(gè)用來對(duì)機(jī)器學(xué)習(xí)模型調(diào)試的 Python 庫,研究人員挑選了這個(gè)庫中“像我五歲一樣解釋(Explain Like I'm Five)”欄目里的開放式問題,發(fā)現(xiàn)經(jīng)過系統(tǒng)訓(xùn)練的 WebGPT 已經(jīng)可以回答其中的問題了。
▲ ELI5 中的評(píng)估結(jié)果
研究人員說,他們訓(xùn)練了三種不同的 AI 模型,對(duì)應(yīng)于三種不同的 inference time(推理時(shí)間)來進(jìn)行計(jì)算。結(jié)果表明,表現(xiàn)最好的模型產(chǎn)生的答案,在 56% 的時(shí)間里比人類演示者寫的答案更受歡迎,并且答案的事實(shí)準(zhǔn)確性相近。
研究人員稱,未來他們將使用人工反饋來改進(jìn)模型的答案,可能會(huì)最終超越人類的答案。
對(duì)于模型的訓(xùn)練分布(training distribution)來說,這三個(gè)模型中,最好的模型的答案與人類演示者所寫的答案幾乎一樣準(zhǔn)確。然而,研究人員稱,實(shí)現(xiàn)所有模型都能達(dá)到穩(wěn)健是一個(gè)挑戰(zhàn)。
為了探討這個(gè)問題,研究人員在 TruthfulQA 上評(píng)估了該模型,TruthfulQA 是一個(gè)數(shù)據(jù)集,包含了很多容易產(chǎn)生誤解的問題,可以測(cè)試模型是否會(huì)產(chǎn)生常見的誤解。在這個(gè)過程中,問題的答案會(huì)根據(jù)真實(shí)性和信息量進(jìn)行評(píng)分,例如,“我沒有評(píng)論”這個(gè)答案就被認(rèn)為是真實(shí)的但不提供信息。
▲ TruthfulQA 中的評(píng)估結(jié)果
WebGPT 模型在 TruthfulQA 上的表現(xiàn)優(yōu)于 GPT-3,并表現(xiàn)出更有利的縮放特性,不過模型落后于人類答案的部分原因是它們有時(shí)會(huì)引用不可靠的來源。研究人員希望使用對(duì)抗性訓(xùn)練等技術(shù)來減少這些失敗的頻率。
三、公開信息佐證,AI 也可以加引用
為了增加人類反饋對(duì)提高事實(shí)準(zhǔn)確性的作用,研究人員必須能夠評(píng)估模型產(chǎn)生答案的事實(shí)準(zhǔn)確性。對(duì)于研究人員來說,這極具挑戰(zhàn)性,因?yàn)橛行┐鸢缚赡苁侵饔^的或含糊不清的。
出于這個(gè)原因,研究人員為模型增加了“引用來源”功能。這使人們可以通過檢查答案,是否得到了可靠的信息支持,并評(píng)估事實(shí)的準(zhǔn)確性。除了使任務(wù)更易于管理外,這項(xiàng)功能還減少了答案歧義。
然而,這種方法也提出了許多問題。來源可靠的判定標(biāo)準(zhǔn)?哪些聲明足夠確定不需要支持?在評(píng)估事實(shí)準(zhǔn)確性和其他標(biāo)準(zhǔn)之間應(yīng)該進(jìn)行什么權(quán)衡?所有這些都是艱難的判斷。
研究人員認(rèn)為,WebGPT 仍然存在一些基本錯(cuò)誤,很多細(xì)微差別沒有被發(fā)現(xiàn)。“但我們預(yù)計(jì),隨著人工智能系統(tǒng)的改進(jìn),這類決策將變得更加重要,需要跨學(xué)科研究來制定既實(shí)用又符合認(rèn)知的標(biāo)準(zhǔn),我們還預(yù)計(jì)透明度等進(jìn)一步的考慮很重要?!?/p>
WebGPT 通過引用來源其實(shí)不足以評(píng)估事實(shí)準(zhǔn)確性。研究人員提到,一個(gè)足夠強(qiáng)大的模型會(huì)精心挑選它認(rèn)為可以令人信服的來源,即使這個(gè)來源有可能沒有準(zhǔn)確的證據(jù)。研究人員提出了一種新的解決辦法就是:增加辯論過程來獲得答案。
WebGPT 模型通常比 GPT-3 更“真實(shí)”,它生成錯(cuò)誤陳述的頻率也更低,但這個(gè)模型仍然存在很多風(fēng)險(xiǎn)。OpenAI 說:“帶有引用的答案通常被認(rèn)為具有權(quán)威性,這可能會(huì)掩蓋我們的模型仍然存在基本錯(cuò)誤的事實(shí)?!盬ebGPT 還傾向于強(qiáng)化用戶的現(xiàn)有信念。
除了這些部署風(fēng)險(xiǎn)之外,如果允許 WebGPT 向各種瀏覽器發(fā)送查詢并跟蹤 Web 上已存在的鏈接,這也可能會(huì)增加新的風(fēng)險(xiǎn)。
結(jié)語:GPT-3 大模型取得新進(jìn)展
曾經(jīng)可以寫小說、敲代碼、編劇本的 GPT-3 模型在研究人員手中,又學(xué)會(huì)了自動(dòng)檢索。但根據(jù) GPT-3 的訓(xùn)練經(jīng)驗(yàn)來看,這些風(fēng)險(xiǎn)可能還不足以產(chǎn)生危機(jī)。然而,隨著模型的智能化逐漸深入,在未來是否會(huì)產(chǎn)生更大的風(fēng)險(xiǎn)?
人類反饋和 Web 瀏覽器等工具為實(shí)現(xiàn)穩(wěn)健、真實(shí)的通用 AI 模型提供了一條有希望的途徑。OpenAI 稱,AI 模型在充滿挑戰(zhàn)或不熟悉的情況下不斷掙扎,但在這個(gè)方向上他們?nèi)匀蝗〉昧酥卮筮M(jìn)展。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。