少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

新智元 2023/5/10 12:42:03 責(zé)編：夢(mèng)澤

評(píng)論：

為了科學(xué)界的未來，加入開源 LLM 陣營吧！

免費(fèi)的 ChatGPT 用的是很爽，但這種閉源的語言模型最大的缺點(diǎn)就是不開源，外界根本無法了解背后的訓(xùn)練數(shù)據(jù)以及是否會(huì)泄露用戶隱私等問題，也引發(fā)了后續(xù)工業(yè)界、學(xué)術(shù)界聯(lián)合開源了 LLaMA 等一系列羊駝模型。

最近 Nature 世界觀欄目刊登了一篇文章，紐約大學(xué)政治與數(shù)據(jù)科學(xué)教授 Arthur Spirling 呼吁大家更多地使用開源模型，實(shí)驗(yàn)結(jié)果可復(fù)現(xiàn)，也符合學(xué)術(shù)倫理。

重點(diǎn)是，萬一哪天 OpenAI 不爽了，關(guān)閉了語言模型接口，或是靠封閉壟斷漲價(jià)的話，那用戶只能無奈地說一句，「終究是學(xué)術(shù)敗給了資本」。

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

文章作者 Arthur Spirling 將于今年 7 月加入普林斯頓大學(xué)教授政治學(xué)，主要研究方向是政治方法論和立法行為，具體為文本數(shù)據(jù) (text-as-data)、自然語言處理、貝葉斯統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、項(xiàng)目反應(yīng)理論和廣義線性模型在政治科學(xué)中的應(yīng)用。

研究人員應(yīng)該避免商用模型的誘惑，共同開發(fā)透明的大型語言模型，以確保可重復(fù)性。

擁抱開源，拒絕壟斷

似乎每天都有一個(gè)全新的大型語言模型 (LLM) 推出，其創(chuàng)建者和學(xué)術(shù)界相關(guān)人士每次都會(huì)對(duì)新模型如何與人類進(jìn)行流暢交流的能力慷慨陳詞，比如可以幫用戶改代碼，寫推薦信，給文章寫摘要等等。

作為一名正在使用并教授如何使用這些模型的政治和數(shù)據(jù)科學(xué)家，我認(rèn)為學(xué)者們應(yīng)該保持警惕，因?yàn)槟壳白钍艽蟊娮放醯恼Z言模型仍然是私有且封閉的，即由公司運(yùn)營，他們不會(huì)披露基本模型的具體信息，只會(huì)獨(dú)立地檢查或驗(yàn)證模型的能力，所以研究人員和公眾并不知道模型的訓(xùn)練使用了哪些文件。

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

急于將語言模型納入自己的研究流程可能會(huì)出問題，可能會(huì)威脅到來之不易的「研究倫理」和「結(jié)果復(fù)現(xiàn)性」方面的相關(guān)進(jìn)展。

不光不能依賴商用模型，研究人員還要通力合作開發(fā)透明且不依賴于某個(gè)具體公司利益的開源大型語言模型。

雖然商用模型非常方便，可以開箱即用，但投資開源語言模型是歷史的趨勢(shì)，既要想辦法推進(jìn)開發(fā)，也要讓模型應(yīng)用于未來的研究中。

我樂觀地估計(jì)，語言模型工具的未來一定是開源的，類似于開源統(tǒng)計(jì)軟件的發(fā)展歷史，剛開始商用的統(tǒng)計(jì)軟件很流行，但目前基本所有社區(qū)都在使用 R 或 Python 等開源平臺(tái)。

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

舉個(gè)例子，去年 7 月發(fā)布的開源語言模型 BLOOM，其開發(fā)團(tuán)隊(duì) Hugging Face 是一家總部位于紐約的人工智能公司，攜手一千多名志愿者和研究人員共同打造，部分研發(fā)資金由法國政府提供；其他團(tuán)隊(duì)也在努力開源大型語言模型。

我認(rèn)為類似這樣的開源項(xiàng)目都是偉大的，但我們還需要更多的合作，需要匯集國際資源和專業(yè)知識(shí)。

開源大型語言模型的團(tuán)隊(duì)通常不像大公司那樣資金充足，并且開發(fā)團(tuán)隊(duì)還需要持續(xù)運(yùn)營以跟蹤領(lǐng)域內(nèi)的最新進(jìn)展：AI 領(lǐng)域的發(fā)展實(shí)在是太快了，甚至大部分語言模型在推出幾周或幾個(gè)月以后就會(huì)過時(shí)。

所以參與到開源中的學(xué)者越多，最終開源模型的效果也會(huì)更好。

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

使用開源 LLM 對(duì)于「可重復(fù)性的研究」至關(guān)重要，因?yàn)殚]源的商用語言模型所有者可以隨時(shí)更改其產(chǎn)品或其訓(xùn)練數(shù)據(jù)，都有可能會(huì)改變模型的生成結(jié)果。

比如說，一個(gè)研究小組可能會(huì)發(fā)表一篇論文，測(cè)試商用語言模型建議的措辭是否可以幫助臨床醫(yī)生更有效地與患者溝通；如果另一個(gè)小組試圖復(fù)現(xiàn)這項(xiàng)研究，誰知道模型的基礎(chǔ)訓(xùn)練數(shù)據(jù)是否和當(dāng)時(shí)一樣？甚至該模型是否仍然運(yùn)營都是未知數(shù)。

之前研究人員常用的輔助工具 GPT-3 已經(jīng)被 GPT-4 取代了，所有基于 GPT-3 接口的研究在未來很可能無法復(fù)現(xiàn)，對(duì)于公司來說，維持舊模型運(yùn)行的優(yōu)先級(jí)并不高。

相比之下，使用開源 LLM，研究人員可以查看模型的內(nèi)部架構(gòu)、權(quán)重，了解模型是如何運(yùn)行的，定制代碼并指出錯(cuò)誤，這些細(xì)節(jié)包括模型的可調(diào)參數(shù)和訓(xùn)練模型的數(shù)據(jù)，社區(qū)的參與和監(jiān)督都有助于讓這種模式長(zhǎng)期保持穩(wěn)健。

在科學(xué)研究中使用商用語言模型也對(duì)研究倫理產(chǎn)生了負(fù)面的影響，因?yàn)橛糜谟?xùn)練這些模型的文本是未知的，可能包括社交媒體平臺(tái)上用戶之間的直接信息或兒童撰寫的內(nèi)容。

盡管制作公共文本的人可能已經(jīng)同意了平臺(tái)的服務(wù)條款，但這可能不是研究人員希望看到的知情同意標(biāo)準(zhǔn)。

在我看來，科學(xué)家應(yīng)該盡可能地在自己的工作中遠(yuǎn)離使用這些模型。我們應(yīng)該轉(zhuǎn)向開放的語言模型，并推廣給其他人使用。

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

此外，我認(rèn)為學(xué)者，尤其是那些擁有大量社交媒體追隨者的學(xué)者，不應(yīng)該推動(dòng)其他人使用商用模型，如果價(jià)格飆升，或者公司倒閉，研究人員可能會(huì)后悔把技術(shù)推廣給同事。

研究人員目前可以求助于私人組織制作的開放式語言模型，例如用 Facebook 母公司 Meta 開源的 LLaMA，最初是基于用戶申請(qǐng)、審核的形式發(fā)放的，但完整版模型隨后在網(wǎng)上泄露；還可以使用 Meta 的開放語言模型 OPT-175 B

從長(zhǎng)遠(yuǎn)來看，不利的一面是，這些模型的發(fā)布過于依賴公司的仁慈，這是一種不穩(wěn)定的局面。

除此之外，還應(yīng)該有與語言模型合作的學(xué)術(shù)行為準(zhǔn)則，以及相應(yīng)的監(jiān)管措施，但這些都需要時(shí)間，根據(jù)我作為政治學(xué)家的經(jīng)驗(yàn)，我預(yù)計(jì)這些規(guī)定最初肯定是很不完善的，并且見效緩慢。

與此同時(shí)，大規(guī)模的合作項(xiàng)目迫切需要支持，以訓(xùn)練用于研究的開源語言模型，類似歐洲粒子物理研究所（CERN），國際粒子物理組織，政府應(yīng)通過贈(zèng)款增加資金。

該領(lǐng)域正在以閃電般的速度發(fā)展，現(xiàn)在需要開始協(xié)調(diào)國內(nèi)和國際支持。

科學(xué)界需要有能力評(píng)估由此得到模型的風(fēng)險(xiǎn)，并且需要謹(jǐn)慎地向公眾發(fā)布，但很明顯，開放的環(huán)境是正確的。

參考資料：

https://www.nature.com/articles/d41586-023-01295-4

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

擁抱開源，拒絕壟斷

相關(guān)文章

少用 ChatGPT，多支持開源，紐約大學(xué)教授 Nature 發(fā)文：為了科學(xué)界的未來

擁抱開源，拒絕壟斷