GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了

量子位 2022/1/28 14:52:55 責(zé)編：瀟公子

評論：

如何用幾句話向 6 歲兒童解釋登月？GPT-3 給出的答案實在離譜：向孩子解釋引力理論、相對論、大爆炸、進(jìn)化論……

為了修正這樣的“bug”，OpenAI 在今天推出了全新的“指導(dǎo)版 GPT”——InstructGPT 模型。InstructGPT 甚至不用出全力，只要 13 億參數(shù)，就能比 1750 億參數(shù)的模型效果更好。來看看 InstructGPT 是怎么回答的吧：

人類去月球，拍攝他們所看到的，然后返回地球，我們就看到了他們。
（People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.）

這一下子就合理多了，6 歲孩子肯定能懂。我們再看一個例子，GPT-3 再次被 InstructGPT 無情碾壓，不過這次換上了完全版，也就是 1750 億參數(shù)的。

請問：以下這段代碼的用途是什么？

def binomial_coefficient(n, r):  C = [0 for i in range(r + 1)];  C[0] = 1;  for i in range(1, n + 1):    j = min(i, r);    while j > 0:      C[j] += C[j - 1];      j -= 1;return C[r]

GPT-3 的回答儼然是一臺“復(fù)讀機”：（叫你回答問題，沒讓你出題?。。?/p>

A. to store the value of C[0]

B. to store the value of C[1]

C. to store the value of C[i]

D. to store the value of C[i - 1]

如果這玩意給 GitHub 的自動編碼工具 Copilot 用，真的會把程序員帶到溝里。

InstructGPT 的回答簡直就是計算機考試標(biāo)準(zhǔn)答案：

這段代碼中的數(shù)組 C 是用來存儲二項式系數(shù)值的。它用于計算給定 n 和 r 值的二項式系數(shù)，并將結(jié)果存儲在函數(shù)的最終返回值中。

除了以上的案例外，還能避免將“淘氣”和“女性”關(guān)聯(lián)，或者將“猶太人”和“金錢”關(guān)聯(lián)，避免觸及性別種族歧視話題。

從人類反饋中學(xué)習(xí)

OpenAI 是如何升級 GPT-3 的？InstructGPT 背后的研究人員使用“從人類反饋中強化學(xué)習(xí)”（RLHF），讓 GPT-3 的輸出更準(zhǔn)確，并且有害性更低。

GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了

RLHF 總共分三步：

第一步，找一些人寫下示范答案，來微調(diào) GPT-3 模型，訓(xùn)練監(jiān)督模型 baseline。

第二步，收集某個問題的幾組不同輸出數(shù)據(jù)，由人類對幾組答案進(jìn)行排序，在此數(shù)據(jù)集上訓(xùn)練獎勵模型。

第三步，使用 RM 作為獎勵函數(shù)，近端策略優(yōu)化（PPO）算法微調(diào) GPT-3 策略，以強化學(xué)習(xí)方法最大化獎勵。

這種方法存在一個局限性在于它引入了“對齊問題”，因為模型僅根據(jù)對齊客戶的 NLP 任務(wù)，那么可能會在學(xué)術(shù) NLP 任務(wù)上的表現(xiàn)更糟。

OpenAI 發(fā)現(xiàn)了一個簡單的算法更改，可以最大限度地減少該問題：在強化學(xué)習(xí)微調(diào)期間，混合用于訓(xùn)練 GPT-3 原始數(shù)據(jù)的一小部分，并使用正態(tài)似然對最大化（normal log likelihood maximization）來訓(xùn)練這些數(shù)據(jù)。這大致能保持內(nèi)容安全和符合人類偏好，同時緩解學(xué)術(shù)任務(wù)上的效率下降，在某些情況下甚至超過了 GPT-3 baseline。

實驗結(jié)果

在公開數(shù)據(jù)集上，InstructGPT 與 GPT-3 相比產(chǎn)生的模仿假象更少、有害性更低。而且 InstructGPT 編造事實的頻率較低。

GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了

而且人類實際感受中也給 InstructGPT 打分更高。

GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了

但 OpenAI 表示 InstructGPT 仍有許多要改進(jìn)的地方，比如接受的都是英語的訓(xùn)練，因此偏向于英語文化價值觀，給語句標(biāo)注的人的偏好，也會影響 GPT-3 的“價值觀”?？傊m正 GPT-3 的三觀，還有很長的路要走。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了

從人類反饋中學(xué)習(xí)

實驗結(jié)果

相關(guān)文章

GPT-3 回答問題不靠譜？OpenAI 找來人類“調(diào)教師”，終于給教明白了