首頁 > 科學(xué)探索>科技前沿

開源大模型新 SOTA，支持免費商用，比 LLaMA65B 小但更強，基于 1 萬億 token

量子位 2023/5/30 13:13:05 責(zé)編：夢澤

評論：

號稱“史上最強的開源大語言模型”出現(xiàn)了。

它叫 Falcon（獵鷹），參數(shù) 400 億，在 1 萬億高質(zhì)量 token 上進(jìn)行了訓(xùn)練。

最終性能超越 650 億的 LLaMA，以及 MPT、Redpajama 等現(xiàn)有所有開源模型。

開源大模型新 SOTA，支持免費商用，比 LLaMA65B 小但更強，基于 1 萬億 token

一舉登頂 HuggingFace OpenLLM 全球榜單：

開源大模型新 SOTA，支持免費商用，比 LLaMA65B 小但更強，基于 1 萬億 token

除了以上成績，F(xiàn)alcon 還可以只用到 GPT-3 75% 的訓(xùn)練預(yù)算，性能就顯著超越 GPT-3，且推理階段的計算也只需 GPT-3 的 1/5。

開源大模型新 SOTA，支持免費商用，比 LLaMA65B 小但更強，基于 1 萬億 token

據(jù)悉，這只半路殺出來的“獵鷹”來自阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所 (TII)。

有意思的是，作為一個開源模型，TII 在 Falcon 上推出了一個相當(dāng)特別的授權(quán)許可證要求：

可以商業(yè)使用，但如果用它產(chǎn)生的收益超過了 100 萬美元，就要被收取 10% 的授權(quán)費。

一時之間，爭議滿滿。

史上最強開源 LLM

據(jù)介紹，F(xiàn)alcon 屬于自回歸解碼器模型。

它使用自定義工具構(gòu)建，包含一個獨特的數(shù)據(jù)管道，該管道從公開網(wǎng)絡(luò)中提取訓(xùn)練數(shù)據(jù)。

——Falcon 宣稱它“特別注重數(shù)據(jù)質(zhì)量”，從公網(wǎng)上抓取內(nèi)容構(gòu)建好 Falcon 的初始預(yù)訓(xùn)練數(shù)據(jù)集后，再使用 CommonCrawl 轉(zhuǎn)儲，進(jìn)行大量過濾（包括刪除機器生成的文本和成人內(nèi)容）并消除重復(fù)數(shù)據(jù)，最終得到一個由近 5 萬億個 token 組成的龐大預(yù)訓(xùn)練數(shù)據(jù)集。

為了擴大 Falcon 的能力，該數(shù)據(jù)集隨后又加進(jìn)了很多精選語料，包括研究論文和社交媒體對話等內(nèi)容。

除了數(shù)據(jù)把關(guān)，作者還對 Falcon 的架構(gòu)進(jìn)行了優(yōu)化以提升性能，但細(xì)節(jié)沒有透露，相關(guān)論文將很快發(fā)布。

據(jù)悉，F(xiàn)alcon 一共耗費兩個月，在 AWS 的 384 個 GPU 上訓(xùn)練而成。

開源大模型新 SOTA，支持免費商用，比 LLaMA65B 小但更強，基于 1 萬億 token

最終，F(xiàn)alcon 一共包含 4 個版本：

Falcon-40B：在 1 萬億 token 上進(jìn)行訓(xùn)練，并使用精選語料庫進(jìn)行了增強；主要接受英語、德語、西班牙語、法語的訓(xùn)練，不會中文。
Falcon-40B-Instruct：在 Baize 上進(jìn)行了微調(diào)，使用 FlashAttention 和多查詢對推理架構(gòu)進(jìn)行了優(yōu)化，是一個即用型聊天模型。
Falcon-7B：參數(shù) 70 億，在 1.5 萬億 token 上進(jìn)行了訓(xùn)練，作為一個原始的預(yù)訓(xùn)練模型，還需要用戶針對大多數(shù)用例進(jìn)一步微調(diào)。
Falcon-RW-7B：參數(shù) 70 億，在 3500 億 token 上進(jìn)行訓(xùn)練，該模型旨在用作“研究神器”，單獨研究各種在網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的影響。