十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

量子位 2023/9/12 17:37:26 責(zé)編：汪淼

評論：

大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama。

千模大戰(zhàn)序幕拉起，復(fù)旦邱錫鵬教授這樣說。

作為國內(nèi)最早推出類 ChatGPT 模型的 MOSS 團(tuán)隊(duì)帶頭人，看到大半年來國內(nèi)外大模型發(fā)展，他有了新的認(rèn)知體會。

在由思佰誠科技舉辦的首屆人工智能生成內(nèi)容國際會議（AIGC 2023）上，他坦言，雖然大家都說大模型更偏工程化，但實(shí)際還有諸多科學(xué)挑戰(zhàn)仍待解決，比如訓(xùn)練目標(biāo)的設(shè)計(jì)、內(nèi)存優(yōu)化、自動化評測、大模型平民化、新架構(gòu)等。

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

在 MOSS 發(fā)布之后這大半年間，他所在團(tuán)隊(duì)又取得了一定的成果：跨模態(tài)語音大模型 SpeechGPT、優(yōu)化器 LOMO 可實(shí)現(xiàn)單機(jī)微調(diào) 650 億參數(shù)大模型；MOSS 中文能力已超 ChatGPT……

不過接下來，邱錫鵬透露不急于將 MOSS 產(chǎn)品化，而是繼續(xù)在新架構(gòu)探索，以及大模型的代碼能力、數(shù)學(xué)能力上去進(jìn)一步提升。

在與量子位的交談中，他談到了 LIama 開源生態(tài)、國內(nèi)競爭格局、大模型產(chǎn)業(yè)落地，以及目前存在大模型幻覺、評測刷榜等現(xiàn)象在內(nèi)的十大問題。

在不改變原意的基礎(chǔ)上，量子位做了如下整理：

大模型進(jìn)入到安卓時代，很多開源大模型中最終可能有一家勝出，現(xiàn)在來看就是 LIama；
國內(nèi)大模型同質(zhì)化嚴(yán)重，希望有國產(chǎn)模型能代替 LIama；
現(xiàn)在很多大模型都沒有做到 RLHF 這一步，后者在某些技術(shù)領(lǐng)域也不是必須的；
大模型幻覺并不是一件壞事，通常做法還會導(dǎo)致性能降低；
創(chuàng)業(yè)窗口變大，每個人都可以借助大模型來做一些自己想做的事。

談 LIama 開源生態(tài)

量子位：現(xiàn)在大模型進(jìn)入到安卓時刻了嗎？

邱錫鵬：是的，整體上是以 LIama 為主的開源生態(tài)。它離 GPT-4 有一定差距。很多復(fù)雜應(yīng)用還是只能 GPT-4 去做，LIama 仍需要進(jìn)一步提升。

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

量子位：具體什么地方提升？

邱錫鵬：還得是基座。

量子位：LIama 對市場格局的改變，如何看待？

邱錫鵬：一開始會有很多開源模型，最終可能有一家勝出，目前看來就是 LIama。

量子位：為什么？

邱錫鵬：首先性能足夠好，然后圍繞它配套的上下游生態(tài)已經(jīng)挺多了。當(dāng)你要重新提一個新模型時，就不得不考慮上下游問題。將來其他大模型要想替代 LIama 不是不可以，但成本就會非常非常高，相當(dāng)于要打破一個生態(tài)鏈。

談國內(nèi)競爭格局

量子位：國內(nèi)是否會出現(xiàn)第二個 LIama？

邱錫鵬：國內(nèi)基本上就各做各的，如果沒有顯著的差異或性能提升，所以很難建立同等的生態(tài)。希望國產(chǎn)模型能取代 Llama，否則可能會限制我們將來的一些發(fā)展。

量子位：現(xiàn)在千模大戰(zhàn)，未來會變成幾個大模型勝出。

邱錫鵬：肯定的。但現(xiàn)在整體都做得比較同質(zhì)化，不太可能建立用戶粘性，最終需要靠性能取勝。

談大模型產(chǎn)業(yè)落地

量子位：很多人說大模型產(chǎn)業(yè)落地到「最后一公里」了，你怎么看待？

邱錫鵬：是不是最后一公里不太確定，但肯定是極大地促進(jìn)產(chǎn)業(yè)落地。大模型確實(shí)改變了之前人工智能的應(yīng)用范式。之前做一個產(chǎn)品，可能需要更多人力去標(biāo)注數(shù)據(jù)，這是個很大的市場需求。但現(xiàn)在大模型就不太需要太多標(biāo)注數(shù)據(jù)，將整個技術(shù)或者應(yīng)用門檻降得很低。但缺點(diǎn)就是算力要求更高。

量子位：創(chuàng)業(yè)窗口更大了嗎？

邱錫鵬：對，就是面向更終端的應(yīng)用，每個人都可以借助大模型來做一些自己想做的事情。

量子位：SFT、RLHF 還沒形成很好的范式，什么時候能達(dá)到工業(yè)界應(yīng)用水平？

邱錫鵬：現(xiàn)在已經(jīng)有套完整的技術(shù)路徑，加上有很多工具能幫助大模型在垂直行業(yè)的應(yīng)用。這樣的技術(shù)路徑依賴能使門檻變得非常低。技術(shù)成熟度目前我覺得還是比較高的。

量子位：追求通用性同時，如何平衡大模型各領(lǐng)域需求？

邱錫鵬：大模型本身通用性強(qiáng)的話，補(bǔ)一些垂直領(lǐng)域知識可能就夠了，這部分并不是特別困難，成本跟預(yù)訓(xùn)練相比會低很多。

量子位：像 LIama2 在 SFT、RLHF 用了 100 萬量級人工標(biāo)注數(shù)據(jù)，這種在數(shù)據(jù)量和成本上都是很大的。

邱錫鵬：現(xiàn)在很多大模型都沒有做到 RLHF 這一步，只是做到 SFT。

量子位：這步對產(chǎn)業(yè)落地是有必要的嗎？

邱錫鵬：也不是必須的，比如在一個技術(shù)領(lǐng)域模型，就不會特別關(guān)注所謂無害性、誠實(shí)性這些特質(zhì)，就像讓它寫個代碼，通常來講對齊會降低模型能力。

談評測刷榜現(xiàn)象

量子位：怎么去看待有的大模型團(tuán)隊(duì)刷榜現(xiàn)象。

邱錫鵬：目前還沒有一個特別好的數(shù)據(jù)集能反映大模型各種能力的，各方都在探索。但現(xiàn)在主要問題是，總體上對于生成式算法模型的評測是相當(dāng)困難的。

量子位：舉個例子。

邱錫鵬：就像 ChatGPT 刷榜不一定能刷過谷歌的大模型，但使用體驗(yàn)上就是更好。真正的評價可能還是要來自于人類真實(shí)感受，但這種評價的成本比較高，也很難定量化。

量子位：那客觀指標(biāo)還需要嗎？

邱錫鵬：還是需要的，但最好就是像以前變成學(xué)術(shù)界比方法就夠了。現(xiàn)在很多企業(yè)去刷榜，但又不公開數(shù)據(jù)，也不具體說怎么做，我覺得這是一種不公平的競爭。

比如說國內(nèi) C-Eval，本身質(zhì)量還挺高但出來幾天就被刷榜了，導(dǎo)致學(xué)術(shù)價值就不大了。

談大模型幻覺問題

量子位：大模型幻覺方面，咱們是否有些相關(guān)進(jìn)展？

邱錫鵬：這方面本身做的并不是特別多，目前可靠的方法還是偏應(yīng)用端去消除幻覺。除此之外，還有人通過對齊或負(fù)反饋的方式去識別。但我個人的觀點(diǎn)是，消除幻覺可能外部加些知識驗(yàn)證就可以解決這件事，而不是從機(jī)理上去消除它。

量子位：為什么？

邱錫鵬：感覺它和模型這種思維能力是強(qiáng)相關(guān)的，有可能幻覺消失了，導(dǎo)致模型能力會下降。

量子位：幻覺并不是件壞事？

邱錫鵬：它可能不是件壞事，需要分場合去利用。比如有些場合繪畫創(chuàng)作、科學(xué)發(fā)現(xiàn)是利用幻覺的。

談 AI 對齊

量子位：OpenAI 有個超級對齊團(tuán)隊(duì)，最終可能是 AI 對齊 AI，您是怎么看待這件事？

邱錫鵬：對齊確實(shí)是件很難做的事情。所謂 AI 對齊人類價值觀，我們?nèi)祟惐旧淼膬r值觀都很難衡量。但像 AI 對齊某些能力是可以的，比如像解數(shù)學(xué)題、下棋，因?yàn)樗暮脡牟恍枰藖碓u價，用 AI 對齊就更好。

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

量子位：數(shù)理方面，大模型能力還比較欠缺。

邱錫鵬：這一塊我覺得是需要更高質(zhì)量的數(shù)據(jù)集。

談對 NLP 的影響

量子位：大語言模型給自然語言處理帶來什么樣的影響？

邱錫鵬：相當(dāng)于整個領(lǐng)域需要重新劃分。早期是按照不同領(lǐng)域以及任務(wù)來劃分，現(xiàn)在就要從不同階段來劃分，大體包括：預(yù)訓(xùn)練、指令微調(diào)、RLHF，這就導(dǎo)致大家做的東西比較雷同，沒有像以前那樣多樣性 ——

現(xiàn)在大語言模型雖說有很多，但基本都是基于 Transformer 架構(gòu)，訓(xùn)練數(shù)據(jù)、訓(xùn)練方法也差不多。

量子位：帶來什么樣的挑戰(zhàn)？

邱錫鵬：首先就賽道擁擠，大家都統(tǒng)一集中到這一賽道；另一個就是提示變得十分重要，有點(diǎn)重新回到此前特征工程里面去，還有就是算力偏高，能耗高，以及很難有客觀化的評價指標(biāo)，以及外加安全問題。

這些挑戰(zhàn)其實(shí)是下沉到大模型從預(yù)訓(xùn)練到應(yīng)用的各個階段的。

談大模型科學(xué)挑戰(zhàn)

量子位：普遍認(rèn)知中大模型偏工程化，還有哪些科學(xué)問題需要解決？

邱錫鵬：主要有以下幾點(diǎn)：

模型架構(gòu)，Transformer 的缺點(diǎn)就是復(fù)雜度和字符長度是平方的關(guān)系，擴(kuò)展規(guī)模時就會變成瓶頸，未來肯定是有些新的架構(gòu)產(chǎn)生。
思維鏈能力來源，要準(zhǔn)備什么樣的數(shù)據(jù)去提升它的能力，現(xiàn)在還沒有一個公認(rèn)手段。
訓(xùn)練目標(biāo)的設(shè)計(jì)，早期機(jī)器學(xué)習(xí)目標(biāo)很明確，可以端到端去減少泛化誤差；但現(xiàn)在大語言模型每個階段（預(yù)訓(xùn)練、精調(diào)加對齊）目標(biāo)與最終目標(biāo)是不是一致？如何去設(shè)計(jì)，這是需要去探索的。
幻覺，現(xiàn)在已經(jīng)有些流行框架去解決，比如 LangChain、LIamaIndex 等，但有沒有更深刻去理解背后工作依據(jù)去揚(yáng)長避短，這值得研究。
多模態(tài)拓展，只在符號世界的知識總歸是受限的，如何與更多模態(tài)對齊?，F(xiàn)在主流方式，比如在接到大語言模型之前接一個編碼器，將多模態(tài)信息變成向量，但只是單方面對齊，模態(tài)之間沒有充分融合。

我們有做一個 SpeechGPT—— 讓大模型直接接收語音信號，將語音離散化為 Token 直接輸入給大模型，大模型可以直接輸入和輸出語音。

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

知識來源，大模型已經(jīng)學(xué)到很多文本層面的知識，那今后進(jìn)一步去提升，還能如何提升？比如那些文本所不能承載的知識，現(xiàn)在也有一些方法，比如多模態(tài)學(xué)習(xí)、具身學(xué)習(xí)等。
實(shí)時學(xué)習(xí)，如何讓大模型與人的交互中進(jìn)行學(xué)習(xí)，并與參數(shù)更新結(jié)合在一起，讓其知識水平不斷提高。
智能體，讓大模型作為 Agent 的載體，賦予它各種能力去完成復(fù)雜任務(wù)；進(jìn)一步思考，多個智能體之間又是怎樣去交互？
自動化評價，現(xiàn)在大模型在推理能力、數(shù)學(xué)能力、代碼能力等方面都差得比較遠(yuǎn)，但這些能力才足以支撐去做很多復(fù)雜的工作，因此要做一種指標(biāo)去衡量這些能力，同時還要避免「刷榜」這種現(xiàn)象。
第十個有點(diǎn)偏工程，但也是個科學(xué)問題，就是大模型的平民化，如果算力要求依然很高，那將只受限于小部分人去做研究。我們在考慮一種全量的微調(diào)優(yōu)化方法。前段時間提出了一種名為 LOMO（低內(nèi)存優(yōu)化）的新優(yōu)化器，并在配備 8 卡 3090（24GB 內(nèi)存）的單臺服務(wù)器，成功微調(diào) 65B 的 LIama。

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

量子位：這些問題工業(yè)界需要關(guān)注嗎？

邱錫鵬：我認(rèn)為值得重視，現(xiàn)在國內(nèi)一些團(tuán)隊(duì)基本只看到工程化，但其實(shí)里面很多挑戰(zhàn)沒有解決。

量子位：學(xué)界和工業(yè)界之間大模型分工是怎樣的？

邱錫鵬：我覺得兩者之間不存在分工，就像 OpenAI 自己的研究團(tuán)隊(duì)、DeepMind 都有在研究這些問題。

談 MOSS 進(jìn)展

量子位：MOSS 下一步將提高哪些方面的能力？

邱錫鵬：可能在新架構(gòu)，以及大模型的代碼能力、數(shù)學(xué)能力上去進(jìn)一步提升。

量子位：成本的情況是怎樣的？像 OpenAI 之前爆出每天燒掉 70 萬美元。

邱錫鵬：我們沒有一個完全嚴(yán)格的數(shù)字，但每天也是有幾百張卡在跑。

量子位：未來會考慮出應(yīng)用端產(chǎn)品？

邱錫鵬：可能在更遠(yuǎn)的將來。

量子位：為什么？

邱錫鵬：目前很多大模型但架構(gòu)比較雷同，沒有形成相較于其他大模型的獨(dú)特性。如果未來能有一些技術(shù)創(chuàng)新能形成競爭力的東西，就可以去做些商業(yè)化落地的事情。

量子位：那有沒有預(yù)期的時間？

邱錫鵬：沒有。

量子位：之前提到將推出更大參數(shù)模型，是否有在推進(jìn)中。

邱錫鵬：MOSS 本身沒有，但團(tuán)隊(duì)有參與到其他單位大模型訓(xùn)練中。

談?wù)J知變化

量子位：對大模型的認(rèn)知，跟半年前有什么變化？

邱錫鵬：那當(dāng)然就是一開始大家都不會理解為什么大模型能做得這么好，現(xiàn)在覺得理所當(dāng)然。比如 SFT 指令微調(diào)之后，就可以聽懂人話之類，這件事放半年前或 ChatGPT 推出之前，不是所有人都能想到的。

然后放在今天，對大模型的理解就又不一樣了 —— 已經(jīng)不把它當(dāng)做一個只聊天的模型，更多是一種決策模型。讓大家可以參與到更復(fù)雜的智能決策，包括智能體之類。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama

談 LIama 開源生態(tài)

談國內(nèi)競爭格局

談評測刷榜現(xiàn)象

談大模型幻覺問題

談 AI 對齊

談對 NLP 的影響

談大模型科學(xué)挑戰(zhàn)

談 MOSS 進(jìn)展

談?wù)J知變化

相關(guān)文章

十問復(fù)旦邱錫鵬：大模型進(jìn)入安卓時代，希望有國產(chǎn)模型能代替 LIama