如何用幾句話向 6 歲兒童解釋登月?GPT-3 給出的答案實在離譜:向孩子解釋引力理論、相對論、大爆炸、進(jìn)化論……
為了修正這樣的“bug”,OpenAI 在今天推出了全新的“指導(dǎo)版 GPT”——InstructGPT 模型。InstructGPT 甚至不用出全力,只要 13 億參數(shù),就能比 1750 億參數(shù)的模型效果更好。來看看 InstructGPT 是怎么回答的吧:
人類去月球,拍攝他們所看到的,然后返回地球,我們就看到了他們。
(People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.)
這一下子就合理多了,6 歲孩子肯定能懂。我們再看一個例子,GPT-3 再次被 InstructGPT 無情碾壓,不過這次換上了完全版,也就是 1750 億參數(shù)的。
請問:以下這段代碼的用途是什么?
def binomial_coefficient(n, r): C = [0 for i in range(r + 1)]; C[0] = 1; for i in range(1, n + 1): j = min(i, r); while j > 0: C[j] += C[j - 1]; j -= 1;return C[r]
GPT-3 的回答儼然是一臺“復(fù)讀機”:(叫你回答問題,沒讓你出題?。。?/p>
A. to store the value of C[0]
B. to store the value of C[1]
C. to store the value of C[i]
D. to store the value of C[i - 1]
如果這玩意給 GitHub 的自動編碼工具 Copilot 用,真的會把程序員帶到溝里。
InstructGPT 的回答簡直就是計算機考試標(biāo)準(zhǔn)答案:
這段代碼中的數(shù)組 C 是用來存儲二項式系數(shù)值的。它用于計算給定 n 和 r 值的二項式系數(shù),并將結(jié)果存儲在函數(shù)的最終返回值中。
除了以上的案例外,還能避免將“淘氣”和“女性”關(guān)聯(lián),或者將“猶太人”和“金錢”關(guān)聯(lián),避免觸及性別種族歧視話題。
從人類反饋中學(xué)習(xí)
OpenAI 是如何升級 GPT-3 的?InstructGPT 背后的研究人員使用“從人類反饋中強化學(xué)習(xí)”(RLHF),讓 GPT-3 的輸出更準(zhǔn)確,并且有害性更低。
RLHF 總共分三步:
第一步,找一些人寫下示范答案,來微調(diào) GPT-3 模型,訓(xùn)練監(jiān)督模型 baseline。
第二步,收集某個問題的幾組不同輸出數(shù)據(jù),由人類對幾組答案進(jìn)行排序,在此數(shù)據(jù)集上訓(xùn)練獎勵模型。
第三步,使用 RM 作為獎勵函數(shù),近端策略優(yōu)化(PPO)算法微調(diào) GPT-3 策略,以強化學(xué)習(xí)方法最大化獎勵。
這種方法存在一個局限性在于它引入了“對齊問題”,因為模型僅根據(jù)對齊客戶的 NLP 任務(wù),那么可能會在學(xué)術(shù) NLP 任務(wù)上的表現(xiàn)更糟。
OpenAI 發(fā)現(xiàn)了一個簡單的算法更改,可以最大限度地減少該問題:在強化學(xué)習(xí)微調(diào)期間,混合用于訓(xùn)練 GPT-3 原始數(shù)據(jù)的一小部分,并使用正態(tài)似然對最大化(normal log likelihood maximization)來訓(xùn)練這些數(shù)據(jù)。這大致能保持內(nèi)容安全和符合人類偏好,同時緩解學(xué)術(shù)任務(wù)上的效率下降,在某些情況下甚至超過了 GPT-3 baseline。
實驗結(jié)果
在公開數(shù)據(jù)集上,InstructGPT 與 GPT-3 相比產(chǎn)生的模仿假象更少、有害性更低。而且 InstructGPT 編造事實的頻率較低。
而且人類實際感受中也給 InstructGPT 打分更高。
但 OpenAI 表示 InstructGPT 仍有許多要改進(jìn)的地方,比如接受的都是英語的訓(xùn)練,因此偏向于英語文化價值觀,給語句標(biāo)注的人的偏好,也會影響 GPT-3 的“價值觀”??傊m正 GPT-3 的三觀,還有很長的路要走。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。