首頁(yè) > 科學(xué)探索>科技前沿

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

量子位 2022/12/30 11:45:05 責(zé)編：夢(mèng)澤

評(píng)論：

就說程序員的手速有多快吧，首個(gè)開源 ChatGPT 項(xiàng)目已經(jīng)出現(xiàn)了！

基于谷歌語(yǔ)言大模型 PaLM 架構(gòu)，以及使用從人類反饋中強(qiáng)化學(xué)習(xí)的方法（RLHF），華人小哥 Phillip Wang 復(fù)刻了一個(gè) ChatGPT 出來。

項(xiàng)目 GitHub 星已經(jīng)超過 1.7k 了，而且還在一路飆升 ing。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

不過一反常態(tài)的是，網(wǎng)友們看到“開源 ChatGPT”卻沒有火速開沖，反倒齊刷刷在發(fā)問：

這…… 有人能 run？

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

開源了但沒完全開？

項(xiàng)目的核心內(nèi)容，是在 PaLM 架構(gòu)上實(shí)現(xiàn)基于人類反饋的強(qiáng)化學(xué)習(xí)。

其中，PaLM（Pathways Language Model）是谷歌在今年 4 月發(fā)布的 5400 億參數(shù)全能大模型，基于 Pathways 系統(tǒng)訓(xùn)練，BERT 之父 Jacob Devlin 為主要貢獻(xiàn)者之一。

PaLM 可以完成寫代碼、聊天、語(yǔ)言理解等任務(wù)，并且在大多數(shù)任務(wù)上實(shí)現(xiàn)了 SOTA 少樣本學(xué)習(xí)性能。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

另一個(gè)核心點(diǎn)是 RLHF“從人類反饋中強(qiáng)化學(xué)習(xí)”。

OpenAI 提出 InstructGPT 時(shí)就用到了這一方法，它能讓 AI 的回答更加符合情景要求，降低“有害性”。

具體分三步：

第一步，找一些人寫下示范答案，來微調(diào) GPT-3 模型，訓(xùn)練監(jiān)督模型 baseline。

第二步，收集某個(gè)問題的幾組不同輸出數(shù)據(jù)，由人類對(duì)幾組答案進(jìn)行排序，在此數(shù)據(jù)集上訓(xùn)練獎(jiǎng)勵(lì)模型。

第三步，使用 RM 作為獎(jiǎng)勵(lì)函數(shù)，近端策略優(yōu)化（PPO）算法微調(diào) GPT-3 策略，以強(qiáng)化學(xué)習(xí)方法最大化獎(jiǎng)勵(lì)。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

ChatGPT 使用的 GPT-3.5，其中 text-davinci-002 就是在 code-davinci-002 的基礎(chǔ)上，采用了 InstructGPT 訓(xùn)練方法改進(jìn)得到。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

正是基于如上兩方面核心內(nèi)容，作者實(shí)現(xiàn)了 ChatGPT 的復(fù)刻。

大致步驟有 3 步：

首先來訓(xùn)練一下 PaLM，就和其他自回歸 Transformer 一樣。
第二……

等等，訓(xùn)練 PaLM？？？這確定不是在開玩笑？

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

現(xiàn)在明白為啥大家都覺得這個(gè)開源項(xiàng)目完全不能 run 了……

打個(gè)不恰當(dāng)?shù)谋确?，這就像如果想吃熊肉，那先自己去打頭熊來。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

項(xiàng)目中只有 PaLM 架構(gòu)和代碼，沒有預(yù)先訓(xùn)練好的權(quán)重。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

所以完成第一步，大概效果就是……

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

話雖如此，但還是繼續(xù)接著往下看看……

第二步，就要訓(xùn)練基于 RLHF 的獎(jiǎng)勵(lì)模型了。作者使用的是一種輕量級(jí)訓(xùn)練大語(yǔ)言模型方法 LoRA，這種方法是開源的。

然后，再把之前訓(xùn)練好的模型和獎(jiǎng)勵(lì)模型用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。

經(jīng)過這三步后，就能得到一個(gè)開源版的 ChatGPT 了。

這中間面臨的問題包括巨大的計(jì)算量、超大模型和難收集的文本…… 所以有人也不免發(fā)問：

有沒有一種可能，它也沒啥用？

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

不過有網(wǎng)友覺得這本質(zhì)上還是一件好事啦。

AI 的一個(gè)關(guān)鍵區(qū)別就是，每有一個(gè)重大突破，很快就會(huì)出現(xiàn)一個(gè)開源版本。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

實(shí)際上，開源項(xiàng)目作者小哥 Philip Wang 一直都熱衷于復(fù)刻各種明星項(xiàng)目，過去還嘗試過 Dall?E 2、AlphaFold 2 等。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

以及 LAION 也發(fā)起了一個(gè)類似項(xiàng)目 Open Assistant，他們將通過“眾籌腦力”的方式，共同開發(fā)一個(gè)開源的聊天 AI。

Stable Diffusion 用的開放數(shù)據(jù)集，就是這一組織做的。

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

感興趣的童鞋不妨去試試看~

PaLM-rlhf-pytorch 主頁(yè)：

https://github.com/lucidrains/PaLM-rlhf-pytorch

Open Assistant 主頁(yè)：

https://github.com/LAION-AI/Open-Assistant

參考鏈接：

[1]https://twitter.com/rasbt/status/1608133663937495041
[2]https://twitter.com/omarsar0/status/1608143718460055552

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：明敏

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

開源了但沒完全開？

相關(guān)文章

首個(gè)“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

開源了但沒完全開？