設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

開源大模型新 SOTA,支持免費商用,比 LLaMA65B 小但更強,基于 1 萬億 token

量子位 2023/5/30 13:13:05 責(zé)編:夢澤

號稱“史上最強的開源大語言模型”出現(xiàn)了。

它叫 Falcon(獵鷹),參數(shù) 400 億,在 1 萬億高質(zhì)量 token 上進(jìn)行了訓(xùn)練。

最終性能超越 650 億的 LLaMA,以及 MPT、Redpajama 等現(xiàn)有所有開源模型。

一舉登頂 HuggingFace OpenLLM 全球榜單:

除了以上成績,F(xiàn)alcon 還可以只用到 GPT-3 75% 的訓(xùn)練預(yù)算,性能就顯著超越 GPT-3,且推理階段的計算也只需 GPT-3 的 1/5。

據(jù)悉,這只半路殺出來的“獵鷹”來自阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所 (TII)。

有意思的是,作為一個開源模型,TII 在 Falcon 上推出了一個相當(dāng)特別的授權(quán)許可證要求:

可以商業(yè)使用,但如果用它產(chǎn)生的收益超過了 100 萬美元,就要被收取 10% 的授權(quán)費。

一時之間,爭議滿滿。

史上最強開源 LLM

據(jù)介紹,F(xiàn)alcon 屬于自回歸解碼器模型。

它使用自定義工具構(gòu)建,包含一個獨特的數(shù)據(jù)管道,該管道從公開網(wǎng)絡(luò)中提取訓(xùn)練數(shù)據(jù)。

——Falcon 宣稱它“特別注重數(shù)據(jù)質(zhì)量”,從公網(wǎng)上抓取內(nèi)容構(gòu)建好 Falcon 的初始預(yù)訓(xùn)練數(shù)據(jù)集后,再使用 CommonCrawl 轉(zhuǎn)儲,進(jìn)行大量過濾(包括刪除機器生成的文本和成人內(nèi)容)并消除重復(fù)數(shù)據(jù),最終得到一個由近 5 萬億個 token 組成的龐大預(yù)訓(xùn)練數(shù)據(jù)集。

為了擴大 Falcon 的能力,該數(shù)據(jù)集隨后又加進(jìn)了很多精選語料,包括研究論文和社交媒體對話等內(nèi)容。

除了數(shù)據(jù)把關(guān),作者還對 Falcon 的架構(gòu)進(jìn)行了優(yōu)化以提升性能,但細(xì)節(jié)沒有透露,相關(guān)論文將很快發(fā)布。

據(jù)悉,F(xiàn)alcon 一共耗費兩個月,在 AWS 的 384 個 GPU 上訓(xùn)練而成。

最終,F(xiàn)alcon 一共包含 4 個版本:

  • Falcon-40B:在 1 萬億 token 上進(jìn)行訓(xùn)練,并使用精選語料庫進(jìn)行了增強;主要接受英語、德語、西班牙語、法語的訓(xùn)練,不會中文。

  • Falcon-40B-Instruct:在 Baize 上進(jìn)行了微調(diào),使用 FlashAttention 和多查詢對推理架構(gòu)進(jìn)行了優(yōu)化,是一個即用型聊天模型。

  • Falcon-7B:參數(shù) 70 億,在 1.5 萬億 token 上進(jìn)行了訓(xùn)練,作為一個原始的預(yù)訓(xùn)練模型,還需要用戶針對大多數(shù)用例進(jìn)一步微調(diào)。

  • Falcon-RW-7B:參數(shù) 70 億,在 3500 億 token 上進(jìn)行訓(xùn)練,該模型旨在用作“研究神器”,單獨研究各種在網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的影響。

開源許可證引爭議

Falcon 作為開源模型,已公開源代碼和模型權(quán)重,可供研究和商業(yè)使用。

這對業(yè)界來說是一個好消息,畢竟像 Meta 的羊駝家族都只能用于研究目的,且還得填表格申請才行,很是麻煩。

但 Falcon 還是引起了爭議。

這主要是因為它那“超過 100 萬美元的任何商業(yè)應(yīng)用都要收 10% 的授權(quán)費”的許可證要求。

據(jù)悉,該許可證部分基于 Apache License 2.0 協(xié)議,該協(xié)議對商業(yè)應(yīng)用友好,使用者修改代碼只需滿足相關(guān)需求即可將新作品作為開源或商業(yè)產(chǎn)品發(fā)布或銷售。

有不少網(wǎng)友認(rèn)為,既然 Falcon 宣稱開源,還要收費,就違背了 Apache License Version 2.0 的宗旨,不屬于真正的開源。

并有人稱這是一種“有損 Apache 軟件基金會來之不易的名譽”的做法。

有網(wǎng)友已經(jīng)跑到 TII 的官方賬號下“討要說法”:

你自己能解釋一下這是如何符合“開源”的定義嗎?

目前,官方并沒有回復(fù)。

你認(rèn)為這種做法究竟算不算開源呢?

參考鏈接:

  • [1]https://falconllm.tii.ae/

  • [2]https://twitter.com/ItakGol/status/1662149041831002138

  • [3]https://twitter.com/TIIuae/status/1662159306588815375

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:大模型,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知