首頁 > 科學探索>科技前沿

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

新智元 2023/12/15 20:46:00 責編：問舟

評論：

感謝IT之家網(wǎng)友軟媒用戶1520111 的線索投遞！

Ilya 領銜的 OpenAI 對齊團隊，剛剛發(fā)表了首篇論文 —— 用類似 GPT-2 監(jiān)督 GPT-4 的方法，或可幫人類搞定自己更聰明的超級 AI！

就在剛剛，OpenAI 首席科學家 Ilya 領銜的超級對齊團隊，發(fā)布了成立以來的首篇論文！

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

團隊聲稱，已經(jīng)發(fā)現(xiàn)了對超人類模型進行實證對齊的新研究方向。

未來超級 AI 系統(tǒng)對齊的一個核心挑戰(zhàn) —— 人類需要監(jiān)督比自己更聰明人工智能系統(tǒng)。

OpenAI 的最新研究做了一個簡單的類比：小模型可以監(jiān)督大模型嗎？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

論文地址：https://cdn.openai.com/ papers / weak-to-strong-generalization.pdf

經(jīng)驗證，通過 GPT-2 可以激發(fā)出 GPT-4 的大部分能力（接近 GPT-3.5 的性能），甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 此舉開辟了一個新的研究方向，讓我們能夠直接解決一個核心挑戰(zhàn)，即調整未來的超級 AI 模型，同時在迭代的實證中取得進展。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

為了便于大家理解，超級對齊共同負責人 Jan Leike，也發(fā)表了對這項研究的簡要概括：

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

人類如何控制比自己更智能的 AI？

OpenAI 認為，超級智能（比人類聰明得多的人工智能），很可能在未來十年內出現(xiàn)。

然而，人類卻仍然不知道，該如何可靠地引導和控制超人 AI 系統(tǒng)。

這個問題，對于確保未來最先進的 AI 系統(tǒng)安全且造福人類，是至關重要的。

解決這個問題對于確保未來最先進的人工智能系統(tǒng)仍然安全并造福人類至關重要。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

為此，今年 7 月 OpenAI 成立了「超級對齊團隊」，來解決這類超級智能的對齊難題。

5 個月后，團隊發(fā)表第一篇論文，介紹了實證對齊超人模型的新研究方向。

當前的對齊方法，例如基于人類反饋的強化學習（RLHF），非常依賴于人類的監(jiān)督。

但未來的人工智能系統(tǒng)，顯然能夠做出極其復雜且極具創(chuàng)造性的行為，而這將使人類很難對其進行可靠的監(jiān)督。

比如，超人模型寫出了數(shù)百萬行新穎的且具有潛在危險的計算機代碼，即便是專業(yè)人士也難以完全理解，這時人類該怎么辦呢？

可見，相比于超人的 AI 模型，人類將成為一個「弱監(jiān)督者」。

而這正是 AGI 對齊的核心挑戰(zhàn) ——「弱小」的人類，如何信任并控制比他們更智能的 AI 系統(tǒng)？

超級對齊：用小模型監(jiān)督大模型？

為了在這個核心挑戰(zhàn)上取得進展，OpenAI 提出了一可以實證研究的類比：能否用一個更?。芰^弱）的模型來監(jiān)督一個更大（能力更強）的模型？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

超級對齊的簡單類比：在傳統(tǒng)的 ML 中，人類監(jiān)督的人工智能系統(tǒng)比自己弱（左）。為了對齊超級智能，人類將需要監(jiān)督比他們更聰明的人工智能系統(tǒng)（中）。我們今天無法直接研究這個問題，但我們可以研究一個簡單的類比：小模型能否監(jiān)督大模型（右圖）？

我們可能會天真地認為，一個強大的模型不會比提供訓練信號的弱監(jiān)督表現(xiàn)得更好。它可能只是學會模仿弱監(jiān)督所犯的所有錯誤。

另一方面，強大的預訓練模型具有出色的原始能力 —— 不需要從頭開始教它們新任務，只需要引出其潛在知識。

那么關鍵的問題是：強模型是否會根據(jù)弱監(jiān)督的潛在意圖進行泛化，利用其全部能力來解決任務，即使是在弱監(jiān)督只能提供不完整或有缺陷的訓練標簽的難題上？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

團隊放出首個成果：用 GPT-2 監(jiān)督 GPT-4

對此，團隊使用了 NLP 基準測試的典型弱到強泛化 —— 用 GPT-2 級別的模型作為弱監(jiān)督，來微調 GPT-4。

在很多情況下，這種方法都能顯著提高泛化能力。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

使用一種簡單的方法，就鼓勵性能更強的模型更加自信，包括在必要時自信地說出與弱監(jiān)督意見不同的意見。

在 NLP 任務上使用這種方法用 GPT-2 級模型監(jiān)督 GPT-4 時，生成的模型通常在 GPT-3 和 GPT-3.5 之間。

而在更弱的監(jiān)督下，就可以恢復 GPT-4 的大部分功能。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

當然，這種方法更像是概念證明，具有很多局限性，比如，它并不適用于 ChatGPT 偏好數(shù)據(jù)。

不過，團隊也發(fā)現(xiàn)了其他方法，比如最佳的早期停止和從小型到中型再到大型模型的引導。

總的來說，結果表明，（1）幼稚的人類監(jiān)督（比如 RLHF）可以在沒有進一步工作的情況下。很好地擴展到超人模型，但（2）大幅改善弱到強的泛化是可行的。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

代碼開源，社區(qū)共創(chuàng)

OpenAI 目前的經(jīng)驗設置與對齊超級模型的終極問題之間，仍然存在重要的差異。

比如，未來的模型可能比當前強模型，模仿當前的弱模型錯誤更容易，這可能會使未來的泛化更加困難。

盡管如此，OpenAI 團隊相信實驗設置，抓住了對齊未來超級模型的一些關鍵難點，使 OpenAI 能夠在這個問題上取得可以驗證的進展。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

同時，他們還透露了未來工作方向，包括修正設置，開發(fā)更好的可擴展方法，以及推進對何時以及如何獲得良好的「弱到強」泛化的科學理解。

OpenAI 表示，他們正在開源代碼，讓機器學習社區(qū)研究人員立即輕松開始從弱到強的泛化實驗。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

千萬美元資助，解決超級對齊難題

這次，OpenAI 還與 Eric Schmidt 合作，啟動了一個價值 1000 萬美元的資助計劃，支持確保超人類 AI 系統(tǒng)對齊并安全的技術研究：

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

- OpenAI 為學術實驗室、非營利組織和個人研究人員提供 10 萬至 200 萬美元的資助。

- 對于研究生，OpenAI 設立了為期一年、總額為 15 萬美元的 OpenAI Superalignment 獎學金，包括 7.5 萬美元的津貼和 7.5 萬美元的計算及研究資金。

- 申請者無需有對齊工作經(jīng)驗；OpenAI 會特別支持首次從事對齊研究的研究人員。

- 申請過程簡潔高效，具體回復將會在申請截止后的四周內給出。

OpenAI 尤其關注以下幾個研究方向：

- 弱到強的泛化：面對超人類模型，人類將是相對弱勢的監(jiān)督者。人類能否理解并控制強大模型是如何從弱監(jiān)督中學習和泛化的？

- 可解釋性：人類如何理解模型的內部工作原理？人類能否利用這種理解來開發(fā)像 AI 謊言檢測器這類的工具來幫助人類？

- 可擴展的監(jiān)督：人類如何利用 AI 系統(tǒng)幫助人類評估其他 AI 系統(tǒng)在復雜任務上的表現(xiàn)？

- 還有包括但不限于以下方向的多個研究領域：誠實度、思維鏈的誠實度、對抗魯棒性（adversarial robustness）、評估和測試平臺等等方向。

參考資料：

https://openai.com/research/weak-to-strong-generalization
https://openai.com/blog/superalignment-fast-grants

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，openai，微軟

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

人類如何控制比自己更智能的 AI？

超級對齊：用小模型監(jiān)督大模型？

團隊放出首個成果：用 GPT-2 監(jiān)督 GPT-4

代碼開源，社區(qū)共創(chuàng)

千萬美元資助，解決超級對齊難題

相關文章

人類如何控制比自己更智能的 AI？

超級對齊：用小模型監(jiān)督大模型？

代碼開源，社區(qū)共創(chuàng)

千萬美元資助，解決超級對齊難題