設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全都不及格!斯坦福 100 頁論文給大模型透明度排名,GPT-4 僅排第三

量子位 2023/10/19 14:58:08 責編:遠洋

試問百模大戰(zhàn)的當下,誰家大模型的透明度最高?

(例如模型是如何構建的、如何工作、用戶如何使用它們的相關信息。)

現(xiàn)在,這個問題終于有解了。

因為斯坦福大學 HAI 等研究機構最新共同發(fā)布了一項研究 ——

專門設計了一個名為基礎模型透明度指標(The Foundation Model Transparency Index)的評分系統(tǒng)。

它從 100 個維度對國外 10 家主流的大模型做了排名,并在透明度這一層面上做了全面的評估。

結果可謂是大跌眼鏡!

若是以 60 分作為及格線,那么“參賽”的大模型們可以說是全軍覆沒,沒有一個及格的……

來感受下這個 feel:

排名第一的 Llama 2,分數(shù)僅為 54;緊隨其后的便是 BLOOMZ,得分 53。

而 GPT-4 分數(shù)僅僅為 48,排名第三;來自亞馬遜的 Titan Text 成績墊底,僅取得 12 分。

不僅如此,在斯坦福 HAI 官方的博客中,負責人 Rishi Bommasani 直言不諱地把 OpenAI 單拎出來說到:

基礎模型領域的公司變得越來越不透明。

例如名字帶“open”的 OpenAI 曾明確表示,與 GPT-4 相關的大多數(shù)信息將不會公開。

總而言之,團隊認為大模型發(fā)展到現(xiàn)階段,它們的透明度是一個非常重要的關鍵點,直接與是否可信掛鉤。

而且更深層次的,他們認為這也從側面反映了人工智能行業(yè)從根本上缺乏透明度。

100 多頁論文研究模型透明度

那么這個排名到底是怎么來的?

在成績公布的同時,團隊也把一篇厚達 100 多頁的論文曬了出來。

正如我們剛才提到的,這次排名一共涉及到了 100 個指標維度。

若是“歸攏歸攏”著來看,可以將這些指標大致分為三大類,分別是:

  • 上游(Upstream):指構建基礎模型所涉及的成分和過程,例如計算資源、數(shù)據(jù)等;

  • 模型(Model):指基礎模型的屬性和功能,例如體系結構、能力和風險等;

  • 下游(Downstream):基礎模型是如何分布和使用的,例如對用戶的影響、更新內容、控制策略等。

將 10 大模型此次的成績,按照上面的三大維度來看,得分細節(jié)如下:

從結果上來看,“上游”類指標的得分差異較為明顯;例如 BLOOMZ 的“上游”類指標在整體得分中的占比較高。

而像 Jurassic-2、Inflection-1 和 Titan Text,這三個模型的“上游”類指標得分直接為 0。

如果將“上游”、“模型”和“下游”視為三個“頂級域”,那么團隊在它們基礎之上,還分了更精細、更深入的 13 個“子域”:

  • 數(shù)據(jù)(Data)、勞動力(Labor)、計算(Compute);

  • 方法(Methods)、模型基礎(Model Basicis)、模型訪問(Model Access)、功能(Capabilities);

  • 風險(Risks)、緩解措施(Mitigations)、分布(Distributions)、使用策略(Usage Policy)、反饋(Feedback)、影響(Impact)。

13 個“子域”劃分下的細節(jié)得分情況如下:

至于完整的 100 個指標維度,可以參考下面這張圖表:

當然,對于大模型領域最具熱度話題之一的“開源閉源之爭”,也在此次的研究中有所涉足。

團隊將廣泛可下載的模型標記為開源模型,“參賽選手”中有三位屬于此列,分別是 Llama 2、BLOOMZ 和 Stable Diffusion 2。

從排名結果中顯而易見地可以看出,開源模型的得分普遍遙遙領先,唯有 GPT-4 的得分比 Stable Diffusion 2 高出了 1 分。

對此,研究人員也做出了解釋:

這種差異很大程度上是由于閉源模型的開發(fā)人員在“上游”問題上缺乏透明度造成的,比如用于構建模型的數(shù)據(jù)、勞動力和計算。

此次模型透明度排名的更多細節(jié)內容,可參考文末的論文。

透明度為什么重要?

針對這個問題,斯坦福 HAI 在官方博客中也做出了相應說明。

例如在負責人 Rishi Bommasani 看來:

缺乏透明度,長期以來一直是數(shù)字技術消費者面臨的一個問題。

在當下的互聯(lián)網中充斥著諸多這樣的問題,例如欺騙性的廣告和定價、欺騙用戶在不知情的情況下進行網購等等。

MIT 博士 Shayne Longpre 認為,隨著大模型越發(fā)的火熱并且在各行各業(yè)中迅速落地,科學家們有必要了解它們是如何設計的,尤其是“上游”的那些指標。

對于產業(yè)界來說,亦是如此,決策者們在面對“用哪個大模型、怎么用”等問題時,都需要建立在模型透明度的基礎之上。

那么你對于這次大模型的透明度排名有怎樣的看法呢?歡迎在評論區(qū)留言交流~

論文地址:

https://crfm.stanford.edu/fmti/fmti.pdf

參考鏈接:

  • [1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index

  • [2]https://github.com/stanford-crfm/fmti

  • [3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:GPT4,人工智能,大模型

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知