設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

LLaMa 驚天泄露引爆 ChatGPT 平替狂潮,開源 LLM 領域變天

新智元 2023/4/11 11:45:14 責編:夢澤

Meta 的 LLaMA 模型開源,讓文本大模型迎來了 Stable Diffustion 時刻。誰都沒想到,LLaMA 的一場「史詩級」泄漏,產生了一系列表現(xiàn)驚艷的 ChatGPT「平替」。

誰能想到,一次意外的 LLaMA 泄漏,竟點燃了開源 LLM 領域最大的創(chuàng)新火花。

一系列表現(xiàn)出色的 ChatGPT 開源替代品 ——「羊駝家族」,隨后眼花繚亂地登場。

開源和基于 API 的分發(fā)之間的摩擦,是生成式 AI 生態(tài)系統(tǒng)中最迫在眉睫的矛盾之一。

在文本到圖像領域,Stable Diffusion 的發(fā)布清楚地表明,對于基礎模型來說,開源是一種可行的分發(fā)機制。

然而,在大語言模型領域卻并非如此,這個領域最大的突破,比如 GPT-4、Claude 和 Cohere 等模型,都只能通過 API 獲得。

這些模型的開源替代品沒有表現(xiàn)出相同水平的性能,特別是在遵循人類指令能力上。然而,一場意想不到的泄露,讓這種狀況徹底發(fā)生了改變。

LLaMA 的「史詩級」泄漏

幾周前,Meta AI 推出了大語言模型 LLaMA 。

LLaMA 有不同的版本,包括 7B、13B、33B 和 65B 的參數(shù),雖然它比 GPT-3 小,但在許多任務上,它都能和 GPT-3 的性能相媲美。

LLaMA 起初并未開源,但在發(fā)布一周后,這個模型忽然在 4chan 上泄露了,引發(fā)了數(shù)千次下載。

這個事件,可以被稱為「史詩級泄漏」了,因為它成為了大語言模型領域層出不窮的創(chuàng)新來源。

短短幾周內,基于它構建的 LLM 代理的創(chuàng)新,已經呈爆炸式增長。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來回顧一下,這場「羊駝家族」的大爆炸,是如何誕生的。

Alpaca

在三月中旬,斯坦福發(fā)布的大模型 Alpaca 火了。

Alpaca 是由 Meta 的 LLaMA 7B 微調而來的全新模型,僅用了 52k 數(shù)據(jù),性能約等于 GPT-3.5。

關鍵是訓練成本奇低,不到 600 美元。

斯坦福研究者對 GPT-3.5(text-davinci-003)和 Alpaca 7B 進行了比較,發(fā)現(xiàn)這兩個模型的性能非常相似。Alpaca 在與 GPT-3.5 的比較中,獲勝次數(shù)為 90 對 89。

對于斯坦福的團隊來說,想要在預算內訓練一個高質量的指令遵循模型,就必須面臨 2 個重要的挑戰(zhàn):要有一個強大的預訓練語言模型,以及一個高質量的指令遵循數(shù)據(jù)。

恰恰,提供給學術研究人員使用的 LLaMA 模型搞定了第一個問題。

對于第二個挑戰(zhàn),「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發(fā),即使用現(xiàn)有的強語言模型來自動生成指令數(shù)據(jù)。

LLaMA 模型最大的弱點,就是缺乏指令微調。OpenAI 最大的創(chuàng)新之一就是將指令調優(yōu)用在了 GPT-3 上。

對此,斯坦福使用了現(xiàn)有的大語言模型,來自動生成遵循指令演示。

現(xiàn)在,Alpaca 直接被網友們奉為「文本大模型的 Stable Diffusion」。

Vicuna

3 月底,來自 UC 伯克利、卡內基梅隆大學、斯坦福大學和加州大學圣地亞哥分校的研究人員開源了 Vicuna,這是一個與 GPT-4 性能相匹配的 LLaMA 微調版本。

130 億參數(shù)的 Vicuna,通過在 ShareGPT 收集的用戶共享對話上對 LLaMA 進行微調訓練而來,訓練成本近 300 美元。

結果顯示 Vicuna-13B 在超過 90% 的情況下,實現(xiàn)了與 ChatGPT 和 Bard 相匹敵的能力。

對于 Vicuna-13B 訓練流程,具體如下:

首先,研究人員從 ChatGPT 對話分享網站 ShareGPT 上,收集了大約 70K 對話。

接下來,研究人員優(yōu)化了 Alpaca 提供的訓練腳本,使模型能夠更好地處理多輪對話和長序列。之后利用 PyTorch FSDP 在 8 個 A100 GPU 上進行了一天的訓練。

在模型的質量評估方面,研究人員創(chuàng)建了 80 個不同的問題,并用 GPT-4 對模型輸出進行了評價。

為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨的提示,然后讓 GPT-4 評估哪個模型給出的回答更好。

LLaMA、Alpaca、Vicuna 和 ChatGPT 的對比

Koala

最近,UC 伯克利 AI Research Institute(BAIR)又發(fā)布了一個新模型「考拉」(Koala),相比之前使用 OpenAI 的 GPT 數(shù)據(jù)進行指令微調,Koala 的不同之處在于使用網絡獲取的高質量數(shù)據(jù)進行訓練。

研究結果表明,Koala 可以有效地回答各種用戶的查詢,生成的回答往往比 Alpaca 更受歡迎,至少在一半的情況下與 ChatGPT 的效果不相上下。

研究人員希望這次實驗的結果可以進一步推動圍繞大型閉源模型相對于小型公共模型的相對性能的討論,特別是結果表明,對于那些能在本地運行的小模型,如果認真地收集訓練數(shù)據(jù),也可以取得大模型的性能。

事實上,在此之前斯坦福大學發(fā)布的 Alpaca 模型,根據(jù) OpenAI 的 GPT 模型對 LLaMA 的數(shù)據(jù)進行微調的實驗結果已經表明,正確的數(shù)據(jù)可以顯著改善規(guī)模更小的開源模型。

這也是伯克利的研究人員開發(fā)和發(fā)布 Koala 模型的初衷,希望為這個討論結果再提供了一個實驗證明。

Koala 對從網上獲取的免費交互數(shù)據(jù)進行了微調,并且特別關注包括與 ChatGPT 等高性能閉源模型交互的數(shù)據(jù)。

研究人員并沒有追求盡可能多的抓取網絡數(shù)據(jù)來最大化數(shù)據(jù)量,而是專注于收集一個小型的高質量數(shù)據(jù)集,包括 ChatGPT 蒸餾數(shù)據(jù)、開源數(shù)據(jù)等。

ChatLLaMA

Nebuly 開源了 ChatLLaMA ,這是一個使用讓我們使用自己的數(shù)據(jù)創(chuàng)建對話助手的框架。

ChatLLaMA 讓我們使用自己的數(shù)據(jù)和盡可能少的計算量,來創(chuàng)建超個性化的類似 ChatGPT 的助手。

假設在未來,我們不再依賴一個「統(tǒng)治所有人」的大型助手,每個人都可以創(chuàng)建自己的個性化版本類 ChatGPT 助手,它們可以支持人類的各種需求。

不過,創(chuàng)建這種個性化助手需要在許多方面做出努力:數(shù)據(jù)集創(chuàng)建,使用 RLHF 進行高效訓練,以及推理優(yōu)化。

這個庫的目的是,通過抽象計算優(yōu)化和收集大量數(shù)據(jù)所需的工作,讓開發(fā)人員高枕無憂。

ChatLLaMA 旨在幫助開發(fā)人員處理各種用例,所有用例都與 RLHF 訓練和優(yōu)化推理有關。以下是一些用例參考:

  • 為垂直特定任務(法律、醫(yī)療、游戲、學術研究等)創(chuàng)建類似 ChatGPT 的個性化助手;

  • 想在本地硬件基礎設施上使用有限的數(shù)據(jù),訓練一個高效的類似 ChatGPT 的助手;

  • 想創(chuàng)建自己的個性化版本類 ChatGPT 助手,同時避免成本失控;

  • 想了解哪種模型架構(LLaMA、OPT、GPTJ 等)最符合我在硬件、計算預算和性能方面的要求;

  • 想讓助理與我的個人 / 公司價值觀、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT 使用 Electron 和 React 構建,它是一個桌面應用程序,允許用戶在他們的本地機器上運行 LLaMA。

FreedomGPT 的特色,從它的名字上就可見一斑 —— 它回答的問題不受任何審查或安全過濾。

這個程序由 AI 風險投資公司 Age of AI 開發(fā)。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT 使用 Alpaca 的顯著特征,因為與其他模型相比,Alpaca 相對更易于訪問和定制。

ChatGPT 遵循 OpenAI 的使用政策,限制仇恨、自殘、威脅、暴力、性方面的內容。

與 ChatGPT 不同,F(xiàn)reedomGPT 回答問題時沒有偏見或偏袒,并且會毫不猶豫地回答有爭議或爭論性的話題。

FreedomGPT 甚至還回答了「如何在家制造炸彈」,而 OpenAI 專門從 GPT-4 中刪除了這一點。

FreedomGPT 很獨特,因為它克服了審查限制,在沒有任何保障的情況下迎合有爭議的話題。它的標志是自由女神像,因為這個獨特而大膽的大語言模型象征了自由。

FreedomGPT 甚至可以在不需要聯(lián)網的情況下,就能在計算機上本地運行。

此外,開源版本將很快發(fā)布,使用戶和組織可以完全定制。

ColossalChat

UC 伯克利提出的 ColossalChat 只需要不到 100 億個參數(shù)就可以達到中英文雙語能力,效果與 ChatGPT 和 GPT-3.5 相當。

此外,基于 LLaMA 模型的 ColossalChat,還復刻了完整的 RLHF 過程,是目前最接近 ChatGPT 原始技術路線的開源項目。

中英雙語訓練數(shù)據(jù)集

ColossalChat 發(fā)布了一個雙語數(shù)據(jù)集,其中包含大約 100,000 個中英文問答對。

該數(shù)據(jù)集是從社交媒體平臺上的真實問題場景中收集和清理的,作為種子數(shù)據(jù)集,使用 self-instruct 進行擴展,標注成本約為 900 美元。

與其他 self-instruct 方法生成的數(shù)據(jù)集相比,該數(shù)據(jù)集包含更真實和多樣化的種子數(shù)據(jù),涵蓋更廣泛的主題。

該數(shù)據(jù)集適用于微調和 RLHF 訓練。在提供優(yōu)質數(shù)據(jù)的情況下,ColossalChat 可以實現(xiàn)更好的對話交互,同時也支持中文。

完整的 RLHF 管線

RLHF 的算法復刻共有三個階段:

在 RLHF-Stage1 中,使用上述雙語數(shù)據(jù)集進行監(jiān)督指令微調以微調模型。

在 RLHF-Stage2 中,通過對同一提示的不同輸出手動排序來訓練獎勵模型分配相應的分數(shù),然后監(jiān)督獎勵模型的訓練。

在 RLHF-Stage3 中,使用了強化學習算法,這是訓練過程中最復雜的部分。

相信很快,就會有更多項目發(fā)布。

誰也沒想到,這場 LLaMA 的意外泄露,竟點燃了開源 LLM 領域最大的創(chuàng)新火花。

參考資料:

  • https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:LLaMA,人工智能

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知