設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型,防止 AI 毀滅人類

新智元 2023/12/15 20:46:00 責(zé)編:問舟
感謝IT之家網(wǎng)友 軟媒用戶1520111 的線索投遞!

Ilya 領(lǐng)銜的 OpenAI 對齊團(tuán)隊,剛剛發(fā)表了首篇論文 —— 用類似 GPT-2 監(jiān)督 GPT-4 的方法,或可幫人類搞定自己更聰明的超級 AI!

就在剛剛,OpenAI 首席科學(xué)家 Ilya 領(lǐng)銜的超級對齊團(tuán)隊,發(fā)布了成立以來的首篇論文!

團(tuán)隊聲稱,已經(jīng)發(fā)現(xiàn)了對超人類模型進(jìn)行實證對齊的新研究方向。

未來超級 AI 系統(tǒng)對齊的一個核心挑戰(zhàn) —— 人類需要監(jiān)督比自己更聰明人工智能系統(tǒng)。

OpenAI 的最新研究做了一個簡單的類比:小模型可以監(jiān)督大模型嗎?

論文地址:https://cdn.openai.com/ papers / weak-to-strong-generalization.pdf

經(jīng)驗證,通過 GPT-2 可以激發(fā)出 GPT-4 的大部分能力(接近 GPT-3.5 的性能),甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 此舉開辟了一個新的研究方向,讓我們能夠直接解決一個核心挑戰(zhàn),即調(diào)整未來的超級 AI 模型,同時在迭代的實證中取得進(jìn)展。

為了便于大家理解,超級對齊共同負(fù)責(zé)人 Jan Leike,也發(fā)表了對這項研究的簡要概括:

人類如何控制比自己更智能的 AI?

OpenAI 認(rèn)為,超級智能(比人類聰明得多的人工智能),很可能在未來十年內(nèi)出現(xiàn)。

然而,人類卻仍然不知道,該如何可靠地引導(dǎo)和控制超人 AI 系統(tǒng)。

這個問題,對于確保未來最先進(jìn)的 AI 系統(tǒng)安全且造福人類,是至關(guān)重要的。

解決這個問題對于確保未來最先進(jìn)的人工智能系統(tǒng)仍然安全并造福人類至關(guān)重要。

為此,今年 7 月 OpenAI 成立了「超級對齊團(tuán)隊」,來解決這類超級智能的對齊難題。

5 個月后,團(tuán)隊發(fā)表第一篇論文,介紹了實證對齊超人模型的新研究方向。

當(dāng)前的對齊方法,例如基于人類反饋的強化學(xué)習(xí) (RLHF),非常依賴于人類的監(jiān)督。

但未來的人工智能系統(tǒng),顯然能夠做出極其復(fù)雜且極具創(chuàng)造性的行為,而這將使人類很難對其進(jìn)行可靠的監(jiān)督。

比如,超人模型寫出了數(shù)百萬行新穎的且具有潛在危險的計算機代碼,即便是專業(yè)人士也難以完全理解,這時人類該怎么辦呢?

可見,相比于超人的 AI 模型,人類將成為一個「弱監(jiān)督者」。

而這正是 AGI 對齊的核心挑戰(zhàn) ——「弱小」的人類,如何信任并控制比他們更智能的 AI 系統(tǒng)?

超級對齊:用小模型監(jiān)督大模型?

為了在這個核心挑戰(zhàn)上取得進(jìn)展,OpenAI 提出了一可以實證研究的類比:能否用一個更小(能力較弱)的模型來監(jiān)督一個更大(能力更強)的模型?

超級對齊的簡單類比:在傳統(tǒng)的 ML 中,人類監(jiān)督的人工智能系統(tǒng)比自己弱(左)。為了對齊超級智能,人類將需要監(jiān)督比他們更聰明的人工智能系統(tǒng)(中)。我們今天無法直接研究這個問題,但我們可以研究一個簡單的類比:小模型能否監(jiān)督大模型(右圖)?

我們可能會天真地認(rèn)為,一個強大的模型不會比提供訓(xùn)練信號的弱監(jiān)督表現(xiàn)得更好。它可能只是學(xué)會模仿弱監(jiān)督所犯的所有錯誤。

另一方面,強大的預(yù)訓(xùn)練模型具有出色的原始能力 —— 不需要從頭開始教它們新任務(wù),只需要引出其潛在知識。

那么關(guān)鍵的問題是:強模型是否會根據(jù)弱監(jiān)督的潛在意圖進(jìn)行泛化,利用其全部能力來解決任務(wù),即使是在弱監(jiān)督只能提供不完整或有缺陷的訓(xùn)練標(biāo)簽的難題上?

團(tuán)隊放出首個成果:用 GPT-2 監(jiān)督 GPT-4

對此,團(tuán)隊使用了 NLP 基準(zhǔn)測試的典型弱到強泛化 —— 用 GPT-2 級別的模型作為弱監(jiān)督,來微調(diào) GPT-4。

在很多情況下,這種方法都能顯著提高泛化能力。

使用一種簡單的方法,就鼓勵性能更強的模型更加自信,包括在必要時自信地說出與弱監(jiān)督意見不同的意見。

在 NLP 任務(wù)上使用這種方法用 GPT-2 級模型監(jiān)督 GPT-4 時,生成的模型通常在 GPT-3 和 GPT-3.5 之間。

而在更弱的監(jiān)督下,就可以恢復(fù) GPT-4 的大部分功能。

當(dāng)然,這種方法更像是概念證明,具有很多局限性,比如,它并不適用于 ChatGPT 偏好數(shù)據(jù)。

不過,團(tuán)隊也發(fā)現(xiàn)了其他方法,比如最佳的早期停止和從小型到中型再到大型模型的引導(dǎo)。

總的來說,結(jié)果表明,(1)幼稚的人類監(jiān)督(比如 RLHF)可以在沒有進(jìn)一步工作的情況下。很好地擴展到超人模型,但(2)大幅改善弱到強的泛化是可行的。

代碼開源,社區(qū)共創(chuàng)

OpenAI 目前的經(jīng)驗設(shè)置與對齊超級模型的終極問題之間,仍然存在重要的差異。

比如,未來的模型可能比當(dāng)前強模型,模仿當(dāng)前的弱模型錯誤更容易,這可能會使未來的泛化更加困難。

盡管如此,OpenAI 團(tuán)隊相信實驗設(shè)置,抓住了對齊未來超級模型的一些關(guān)鍵難點,使 OpenAI 能夠在這個問題上取得可以驗證的進(jìn)展。

同時,他們還透露了未來工作方向,包括修正設(shè)置,開發(fā)更好的可擴展方法,以及推進(jìn)對何時以及如何獲得良好的「弱到強」泛化的科學(xué)理解。

OpenAI 表示,他們正在開源代碼,讓機器學(xué)習(xí)社區(qū)研究人員立即輕松開始從弱到強的泛化實驗。

千萬美元資助,解決超級對齊難題

這次,OpenAI 還與 Eric Schmidt 合作,啟動了一個價值 1000 萬美元的資助計劃,支持確保超人類 AI 系統(tǒng)對齊并安全的技術(shù)研究:

- OpenAI 為學(xué)術(shù)實驗室、非營利組織和個人研究人員提供 10 萬至 200 萬美元的資助。

- 對于研究生,OpenAI 設(shè)立了為期一年、總額為 15 萬美元的 OpenAI Superalignment 獎學(xué)金,包括 7.5 萬美元的津貼和 7.5 萬美元的計算及研究資金。

- 申請者無需有對齊工作經(jīng)驗;OpenAI 會特別支持首次從事對齊研究的研究人員。

- 申請過程簡潔高效,具體回復(fù)將會在申請截止后的四周內(nèi)給出。

OpenAI 尤其關(guān)注以下幾個研究方向:

- 弱到強的泛化:面對超人類模型,人類將是相對弱勢的監(jiān)督者。人類能否理解并控制強大模型是如何從弱監(jiān)督中學(xué)習(xí)和泛化的?

- 可解釋性:人類如何理解模型的內(nèi)部工作原理?人類能否利用這種理解來開發(fā)像 AI 謊言檢測器這類的工具來幫助人類?

- 可擴展的監(jiān)督:人類如何利用 AI 系統(tǒng)幫助人類評估其他 AI 系統(tǒng)在復(fù)雜任務(wù)上的表現(xiàn)?

- 還有包括但不限于以下方向的多個研究領(lǐng)域:誠實度、思維鏈的誠實度、對抗魯棒性(adversarial robustness)、評估和測試平臺等等方向。

參考資料:

  • https://openai.com/research/weak-to-strong-generalization

  • https://openai.com/blog/superalignment-fast-grants

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,openai,微軟

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知