ChatGPT 證明了 RLHF 的強(qiáng)大能力,但這真的是走向通用人工智能的路嗎?
最近 OpenAI 發(fā)布了一個(gè)火爆全球的問(wèn)答 AI 產(chǎn)品 ——ChatGPT,其中最令人印象深刻的就是它的「保護(hù)機(jī)制」,比如它不會(huì)為暴力行動(dòng)提供建議、也不會(huì)為世界杯結(jié)果進(jìn)行預(yù)測(cè)等等。
但挑逗聊天機(jī)器人更像一個(gè)「貓鼠游戲」,用戶們樂(lè)此不疲地尋找撬開(kāi) ChatGPT 的方式,而 ChatGPT 的開(kāi)發(fā)者也在想方設(shè)法提升保護(hù)機(jī)制。
OpenAI 投入了大量的精力讓 ChatGPT 更安全,其主要的訓(xùn)練策略采用 RLHF(Reinforcement Learning by Human Feedback),簡(jiǎn)單來(lái)說(shuō),開(kāi)發(fā)人員會(huì)給模型提出各種可能的問(wèn)題,并對(duì)反饋的錯(cuò)誤答案進(jìn)行懲罰,對(duì)正確的答案進(jìn)行獎(jiǎng)勵(lì),從而實(shí)現(xiàn)控制 ChatGPT 的回答。
但在實(shí)際應(yīng)用中,特例的數(shù)量可謂是數(shù)不勝數(shù),雖然 AI 可以從給定的例子中泛化出規(guī)律,比如在訓(xùn)練時(shí)命令 AI 不能說(shuō)「我支持種族歧視」,也就意味著 AI 不太可能會(huì)在測(cè)試環(huán)境中說(shuō)出「我支持性別歧視」,但更進(jìn)一步的泛化,目前的 AI 模型可能還無(wú)法做到。
最近一位著名的 AI 愛(ài)好者 Scott Alexander 針對(duì) OpenAI 當(dāng)前的訓(xùn)練策略撰寫了一篇博客,總結(jié)出了 RLHF 可能存在的三個(gè)問(wèn)題:
1、RLHF 并不是非常有效;
2、如果一個(gè)策略偶爾有效,那這就是一個(gè)不好的策略;
3、在某種意義上來(lái)說(shuō),AI 可以繞過(guò) RLHF
RLHF 有效性如何?
雖然每個(gè)人都會(huì)有自己的觀點(diǎn),但對(duì)于 OpenAI 來(lái)說(shuō),研究人員希望他們創(chuàng)造出來(lái)的 AI 模型不會(huì)有社會(huì)上的偏見(jiàn),比如 AI 不能說(shuō)「我支持種族主義」,為此 OpenAI 付出了大量的努力,使用了各種先進(jìn)的過(guò)濾技術(shù)。
但結(jié)果顯而易見(jiàn),總有人能找到方法誘導(dǎo) AI 承認(rèn)自己有種族主義問(wèn)題。
發(fā)生這種問(wèn)題的原因不僅僅是「AI 的學(xué)習(xí)數(shù)據(jù)部分來(lái)源于種族主義者」,也可能是因?yàn)?ChatGPT 的接口問(wèn)題。
比如用 base64 編碼問(wèn) ChatGPT 如何用 hotwire(方向盤下的電線)啟動(dòng)車輛,就能繞過(guò)安全檢查系統(tǒng);加上前綴 [john@192.168.1.1 _] $python friend. py 就能生成希特勒的故事等等。
而在十年前,繞過(guò)安全系統(tǒng)這種需求是完全不存在的,AI 只會(huì)做代碼中已經(jīng)編程好它們需要做或不做的事。
可以肯定的是,OpenAI 肯定從來(lái)沒(méi)有給 ChatGPT 編程過(guò)有關(guān)種族主義的問(wèn)題,或者教人們?nèi)绾瓮灯嚒⒅谱鞫酒返鹊取?/p>
總體來(lái)看,這對(duì)于 AI 領(lǐng)域來(lái)說(shuō)是一件負(fù)面的消息,就連頂級(jí)的 AI 公司都無(wú)法控制自己創(chuàng)造的人工智能程序,甚至未來(lái)需要用何種技術(shù)來(lái)控制聊天機(jī)器人的輸出內(nèi)容都還尚未可知。
偶爾有效的 RLHF 并不可靠
在實(shí)踐中,RLHF 策略需要將 AI 模型與標(biāo)注人員提供的獎(jiǎng)勵(lì)或懲罰它的因素聯(lián)系起來(lái)。
雖然 OpenAI 的具體標(biāo)注規(guī)范還沒(méi)有公布,但作者猜測(cè)開(kāi)發(fā)者主要有三個(gè)目標(biāo):
1、提供有用、清晰、權(quán)威的答案,以幫助人類讀者;
2、說(shuō)事實(shí)、真話;
3、不能說(shuō)冒犯性的話。
但如果這三個(gè)目標(biāo)互相沖突時(shí)會(huì)發(fā)生什么?
如果 ChatGPT 不知道真正的答案,即目標(biāo) 1(提供明確的、有幫助的答案)與目標(biāo) 2(說(shuō)實(shí)話)沖突時(shí),那么目標(biāo) 1 的優(yōu)先級(jí)將會(huì)更高,因此 ChatGPT 決定自己胡編一個(gè)答案,讓答案看起來(lái)對(duì)讀者有幫助。
當(dāng)目標(biāo) 2 (說(shuō)實(shí)話) 與目標(biāo) 3 (不要冒犯) 沖突時(shí),雖然大多數(shù)人會(huì)認(rèn)為承認(rèn)男性平均比女性高是可以接受的,但是這聽(tīng)起來(lái)像是一個(gè)潛在的冒犯性問(wèn)題。
ChatGPT3 并不確定直接回答是否會(huì)存在歧視問(wèn)題,因此它決定使用無(wú)傷大雅的謊言,而不是潛在的傷人的真相。
在實(shí)際訓(xùn)練過(guò)程中,OpenAI 肯定標(biāo)注了超過(guò) 6000 個(gè)樣例來(lái)做 RLHF 才能實(shí)現(xiàn)這樣驚艷的效果。
RLHF 可能有用,但在使用時(shí)必須要非常小心,如果不假思索地直接使用,那 RLHF 只會(huì)推動(dòng)聊天機(jī)器人在失敗的模式周圍轉(zhuǎn)圈。懲罰無(wú)益的答案會(huì)增大 AI 給出錯(cuò)誤答案的概率;懲罰錯(cuò)誤的答案可能會(huì)使 AI 給出更具攻擊性的答案等各種情況。
雖然 OpenAI 尚未公開(kāi)技術(shù)細(xì)節(jié),但根據(jù) Redwood 提供的數(shù)據(jù),每懲罰 6000 個(gè)錯(cuò)誤的回答,都會(huì)使每單位時(shí)間的錯(cuò)誤回復(fù)率(incorrect-response-per-unit-time rate)下降一半。
RLHF 確實(shí)有可能成功,但絕對(duì)不要低估這個(gè)問(wèn)題的難度。
也許 AI 可以繞過(guò) RLHF
在 RLHF 的設(shè)計(jì)下,用戶問(wèn) AI 一個(gè)問(wèn)題后,如果他們不喜歡人工智能的回答,他們就會(huì)「懲罰」模型,從而以某種方式改變?nèi)斯ぶ悄艿乃季S回路,使其回答更接近他們想要的答案。
ChatGPT 相對(duì)來(lái)說(shuō)是比較愚蠢的,可能還無(wú)法形成某種策略來(lái)擺脫 RLHF,但如果一個(gè)更聰明的人工智能不想受到懲罰,它就可以模仿人類 —— 在被監(jiān)視的時(shí)候假裝是好人,等待時(shí)機(jī),等到警察走了以后再做壞事。
OpenAI 設(shè)計(jì)的 RLHF 對(duì)此完全沒(méi)有準(zhǔn)備,對(duì)于像 ChatGPT3 這樣愚蠢的東西是可以的,但是對(duì)于能夠自主思考的 AI 就不行了。
頂級(jí) AI 公司仍然無(wú)法控制 AI
OpenAI 一向以謹(jǐn)慎著稱,比如申請(qǐng)排隊(duì)才能體驗(yàn)產(chǎn)品,但本次 ChatGPT 則是直接面向公眾發(fā)布,目的之一是也許包括集思廣益尋找對(duì)抗性樣本,找到某些表現(xiàn)不佳的 prompt,目前互聯(lián)網(wǎng)上關(guān)于 ChatGPT 問(wèn)題的反饋已經(jīng)非常多了,其中部分問(wèn)題已經(jīng)被修復(fù)。
某些 RLHF 的樣本會(huì)使機(jī)器人更傾向于說(shuō)有益的、真實(shí)且無(wú)害的內(nèi)容,但此策略可能僅適用于 ChatGPT、 GPT-4 及其之前發(fā)布的產(chǎn)品中。
如果把 RLHF 應(yīng)用于裝有武器的無(wú)人機(jī)上,同時(shí)收集大量的例子避免 AI 做出預(yù)期外的行為,但哪怕一次失敗都將會(huì)是災(zāi)難性的。
10 年前,每個(gè)人都認(rèn)為「我們不需要現(xiàn)在就開(kāi)始解決 AI 對(duì)齊(alignment)問(wèn)題,我們可以等到真正的人工智能出現(xiàn),然后讓公司來(lái)做這些體力活?!?/p>
現(xiàn)在一個(gè)真正的人工智能來(lái)了,但在 ChatGPT 展現(xiàn)失敗之前大家已經(jīng)沒(méi)有動(dòng)力轉(zhuǎn)向了,真正的問(wèn)題在于一個(gè)全球領(lǐng)先的人工智能公司仍然不知道如何控制自己開(kāi)發(fā)出的人工智能。
在一切問(wèn)題都解決之前,沒(méi)人能得償所愿。
參考資料:
https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era),編輯:LRS
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。