設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-3 回答問題不靠譜?OpenAI 找來人類“調(diào)教師”,終于給教明白了

量子位 2022/1/28 14:52:55 責編:瀟公子

如何用幾句話向 6 歲兒童解釋登月?GPT-3 給出的答案實在離譜:向孩子解釋引力理論、相對論、大爆炸、進化論……

為了修正這樣的“bug”,OpenAI 在今天推出了全新的“指導版 GPT”——InstructGPT 模型。InstructGPT 甚至不用出全力,只要 13 億參數(shù),就能比 1750 億參數(shù)的模型效果更好。來看看 InstructGPT 是怎么回答的吧:

人類去月球,拍攝他們所看到的,然后返回地球,我們就看到了他們。

(People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.)

這一下子就合理多了,6 歲孩子肯定能懂。我們再看一個例子,GPT-3 再次被 InstructGPT 無情碾壓,不過這次換上了完全版,也就是 1750 億參數(shù)的。

請問:以下這段代碼的用途是什么?

def binomial_coefficient(n, r):  C = [0 for i in range(r + 1)];  C[0] = 1;  for i in range(1, n + 1):    j = min(i, r);    while j > 0:      C[j] += C[j - 1];      j -= 1;return C[r]

GPT-3 的回答儼然是一臺“復讀機”:(叫你回答問題,沒讓你出題啊?。?/p>

A. to store the value of C[0]

B. to store the value of C[1]

C. to store the value of C[i]

D. to store the value of C[i - 1]

如果這玩意給 GitHub 的自動編碼工具 Copilot 用,真的會把程序員帶到溝里。

InstructGPT 的回答簡直就是計算機考試標準答案:

這段代碼中的數(shù)組 C 是用來存儲二項式系數(shù)值的。它用于計算給定 n 和 r 值的二項式系數(shù),并將結(jié)果存儲在函數(shù)的最終返回值中。

除了以上的案例外,還能避免將“淘氣”和“女性”關(guān)聯(lián),或者將“猶太人”和“金錢”關(guān)聯(lián),避免觸及性別種族歧視話題。

從人類反饋中學習

OpenAI 是如何升級 GPT-3 的?InstructGPT 背后的研究人員使用“從人類反饋中強化學習”(RLHF),讓 GPT-3 的輸出更準確,并且有害性更低。

RLHF 總共分三步:

第一步,找一些人寫下示范答案,來微調(diào) GPT-3 模型,訓練監(jiān)督模型 baseline。

第二步,收集某個問題的幾組不同輸出數(shù)據(jù),由人類對幾組答案進行排序,在此數(shù)據(jù)集上訓練獎勵模型。

第三步,使用 RM 作為獎勵函數(shù),近端策略優(yōu)化(PPO)算法微調(diào) GPT-3 策略,以強化學習方法最大化獎勵。

這種方法存在一個局限性在于它引入了“對齊問題”,因為模型僅根據(jù)對齊客戶的 NLP 任務,那么可能會在學術(shù) NLP 任務上的表現(xiàn)更糟。

OpenAI 發(fā)現(xiàn)了一個簡單的算法更改,可以最大限度地減少該問題:在強化學習微調(diào)期間,混合用于訓練 GPT-3 原始數(shù)據(jù)的一小部分,并使用正態(tài)似然對最大化(normal log likelihood maximization)來訓練這些數(shù)據(jù)。這大致能保持內(nèi)容安全和符合人類偏好,同時緩解學術(shù)任務上的效率下降,在某些情況下甚至超過了 GPT-3 baseline。

實驗結(jié)果

在公開數(shù)據(jù)集上,InstructGPT 與 GPT-3 相比產(chǎn)生的模仿假象更少、有害性更低。而且 InstructGPT 編造事實的頻率較低。

而且人類實際感受中也給 InstructGPT 打分更高。

但 OpenAI 表示 InstructGPT 仍有許多要改進的地方,比如接受的都是英語的訓練,因此偏向于英語文化價值觀,給語句標注的人的偏好,也會影響 GPT-3 的“價值觀”??傊m正 GPT-3 的三觀,還有很長的路要走。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:模型,OpenAI,GPT3

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知