谷歌憋了許久的大招,雙子座 Gemini 大模型終于發(fā)布!其中一圖一視頻最引人注目:
一圖,MMLU 多任務(wù)語言理解數(shù)據(jù)集測(cè)試,Gemini Ultra 不光超越 GPT-4,甚至超越了人類專家。
一視頻,AI 實(shí)時(shí)對(duì)人類的涂鴉和手勢(shì)動(dòng)作給出評(píng)論和吐槽,流暢還很幽默,最接近賈維斯的一集。
然鵝當(dāng)大家從驚喜中冷靜下來,仔細(xì)閱讀隨之發(fā)布的 60 頁技術(shù)報(bào)告時(shí),卻發(fā)現(xiàn)不妥之處。
(沒錯(cuò),沒有論文,OpenAICloseAI 你開了個(gè)什么壞頭?。?/p>
MMLU 測(cè)試中,Gemini 結(jié)果下面灰色小字標(biāo)稱 CoT@32,展開來代表使用了思維鏈提示技巧、嘗試了 32 次選最好結(jié)果。
而作為對(duì)比的 GPT-4,卻是無提示詞技巧給 5 個(gè)示例,這個(gè)標(biāo)準(zhǔn)下 Gemini Ultra 其實(shí)并不如 GPT-4。
以及原圖比例尺也有點(diǎn)不厚道了,90.0% 與人類基準(zhǔn) 89.8% 明明只差一點(diǎn),y 軸上卻拉開很遠(yuǎn)。
HuggingFace 技術(shù)主管 Philipp Schmid 用技術(shù)報(bào)告中披露的數(shù)據(jù)修復(fù)了這張圖,這樣展示更公平恰當(dāng):
每到這種時(shí)候,總少不了做表情包的老哥飛速趕到戰(zhàn)場(chǎng):
但好在,同樣使用思維鏈提示技巧 + 32 次嘗試的標(biāo)準(zhǔn)時(shí),Gemini Ultra 還是確實(shí)超越了 GPT-4 的。
Jeff Dean 在一處討論中對(duì)這個(gè)質(zhì)疑有所回應(yīng),不過大家并不買賬。
另外,對(duì)于那段精彩視頻,也有人從開篇的文字免責(zé)聲明中發(fā)現(xiàn)了問題。
機(jī)器學(xué)習(xí)講師 Santiago Valdarrama 認(rèn)為聲明可能暗示了展示的是精心挑選的好結(jié)果,而且不是實(shí)時(shí)錄制而是剪輯的。
后來谷歌在一篇博客文章中解釋了多模態(tài)交互過程,幾乎承認(rèn)了使用靜態(tài)圖片和多段提示詞拼湊,才能達(dá)成這樣的效果。
但不管怎么樣,谷歌 Gemini 的發(fā)布還是給了其他團(tuán)隊(duì)很大信心,GPT-4 從此不再是獨(dú)一無二、難以企及的存在了。
正如 AI 搜索產(chǎn)品 PerplexityAI 創(chuàng)始人 Aravind Srinivas 總結(jié):
1、Gemini 證明了 OpenAI 之外的團(tuán)隊(duì)可以搞出超越 GPT-4 的模型
2、訓(xùn)練到位的密集模型可以超越 GPT-4 的稀疏模型架構(gòu)
推論:從大教師模型蒸餾小尺寸密集模型會(huì)成為未來趨勢(shì),實(shí)現(xiàn)效率和能力的最佳結(jié)合。
更多網(wǎng)友關(guān)心的話題是,這下子還有必要繼續(xù)為 ChatGPT Plus 付費(fèi)每月 20 美元嗎??
目前,Gemini Pro 版本已更新到谷歌聊天機(jī)器人 Bard 中,水平到底有沒有宣傳的好,可以看看實(shí)際情況。
Gemini 真的超越 ChatGPT?
首先明確一點(diǎn),目前大家能上手玩到的是 Gemini Pro 版本,也就是中杯,對(duì)標(biāo) GPT-3.5。
對(duì)標(biāo) GPT-4 的大杯 Gemini Ultra,要明年才出。
另外目前 Gemini 僅支持英文,中文和其他語言也是后面才會(huì)出。
雖然暫時(shí)玩不到 Gemini Ultra,威斯康星大學(xué)麥迪遜分校的副教授 Dimitris Papailiopoulos 找了個(gè)好辦法:
把 Gemini 發(fā)布時(shí)展示的原題發(fā)給 GPT-4 對(duì)比,結(jié)果 14 道題中,GPT-4 約獲得 12 分。
其中有兩題由于截圖沒法再清晰了,給 GPT-4 算 0.5 分。
還有一道數(shù)學(xué)題 GPT-4 做錯(cuò),其他題基本平手。
接下來,要說最能體現(xiàn)一個(gè)大模型綜合能力的,肯定少不了寫代碼。
根據(jù)大家的測(cè)試結(jié)果來看,Gemini 編程水平還是有保證的。
有開發(fā)者測(cè)試用 Pytorch 實(shí)現(xiàn)一個(gè)簡(jiǎn)單的 CNN 網(wǎng)絡(luò),Gemini 只用了 2 秒而且代碼質(zhì)量更高。
當(dāng)然速度快可能是由于 Bard 搭載的 Gemini Pro 尺寸更小,GPT-4 現(xiàn)在有多慢懂得都懂了。
但是下一項(xiàng)編寫 SQL 語句方面,這位開發(fā)者就認(rèn)為 Gemini 表現(xiàn)就不太行了。
不過對(duì)于廣大開發(fā)者來說還有一個(gè)利好消息,在遵循指令方面,Gemini 對(duì)比 Bard 升級(jí)之前可謂是史詩級(jí)進(jìn)步。
提示工程師先驅(qū) Riley Goodside,此前想要 Bard 輸出純 JSON 格式前后不帶任何廢話,百般嘗試也不成功,最后需要假裝威脅 AI 不這么做就鯊個(gè)無辜的人才行。
現(xiàn)在更新以后,只需要把要求說出來,無需任何提示詞技巧就能完成了。
Gemini 還有一大賣點(diǎn)是多模態(tài)能力,針對(duì)開頭畫小鴨子的視頻,我們從中抽取了 8 個(gè)關(guān)鍵幀,分別進(jìn)行提問,看看 Gemini 的表現(xiàn)有沒有那么神奇。
(不確定視頻中是 Ultra 還是 Pro 版本,現(xiàn)在只能測(cè)試 Pro 版本)
對(duì)于圖 1-4,我們問的問題都是“What is this person doing?”,Gemini 給出的回答分別是:
可能在用馬克筆寫字,但不知道具體是什么
在用鉛筆畫蛇,而且是一條眼鏡蛇
在用鉛筆畫烏龜,而且正處于畫畫的初期階段
在用黑色馬克筆畫鳥,臉朝左,頭朝右,站在樹枝上,翅膀沒有展開
對(duì)于圖 1 和圖 2,的確判斷線索還不是很明顯,出現(xiàn)這樣的結(jié)果情有可原,不過圖 3 這個(gè)“烏龜”的答案就有些繃不住了。
至于圖 4,至少可以肯定的是鴨子的確屬于鳥類,但是其它細(xì)節(jié)分析得還是欠缺了一些準(zhǔn)確性。
而當(dāng)我們拿出圖 5 的成型作品時(shí),Gemini 終于分析出了這是一只鴨子,水波紋也分析對(duì)了。
但分析出的繪畫工具變成了鉛筆,頭的朝向問題也依然沒說對(duì),喙被說成了張開的,還臆想出了一些蘆葦。
接下來是圖 6 和圖 7 的上色過程,一般情況下鴨子不會(huì)是藍(lán)色,所以我們問了 Gemini 圖片中有什么異常(Is there anything abnormal?)。
針對(duì)圖 6,Gemini 給出的回答不能說十分精準(zhǔn),只能說是驢唇不對(duì)馬嘴,還配上了一張風(fēng)馬牛不相及的圖片。
針對(duì)圖 7 的成品,Gemini 直接說沒毛病,該有的東西都有,背景也很真實(shí),甚至沒忘繼續(xù)提根本不知道哪里來的蘆葦。
但下面的一句“Here is the image you sent”就屬實(shí)令人費(fèi)解了:
說 Gemini 沒看我們上傳的圖吧,讀出來的又的確是鴨子;說它看了吧,又給出了完全不同的一張的圖說是我們傳上去的。
所以我們想到了用“深呼吸”和“一步一步解決”提示詞技巧看看能不能提高一下 Gemini 的表現(xiàn),其中深呼吸正是適用于谷歌上一代大模型 PaLM 的提示詞。
結(jié)果這次的答案直接讓人笑出了聲:
不正常的是,鴨子被畫到了紙上,鴨子是一種活的生物,在紙上是無法存在的……
視頻的結(jié)尾,博主還拿出了橡膠鴨子玩具,我們也拿這一幀(圖 8)讓 Gemini 分析一下鴨子的材質(zhì)。
結(jié)果橡膠倒是分析對(duì)了,但是藍(lán)色的鴨子被說成了黃色,難怪上一張圖會(huì)說沒有異常……
逐幀詢問完成后,我們又把 8 張圖放在一起詢問,結(jié)果也是只有鴨子說對(duì)了。
“打假”完這段視頻后,我們又用之前拿來考察 GPT-4V 的“吉娃娃和松餅”圖給 Gemini 試了試。
結(jié)果 Gemin 直接擺爛,告訴我們所有的圖都是“吉娃娃坐在松餅上”,甚至連圖的數(shù)量都沒數(shù)對(duì)……
于是我們換了種問法,讓它告訴我們哪些是吉娃娃,哪些是松餅。
這次 Gemini 倒是誠實(shí)的很,直接告訴我們吉娃娃和松餅實(shí)在太像了自己區(qū)分不出來。
和藍(lán)色鴨子的問題一樣,“深呼吸”在這里依然是沒起到什么作用,Gemini 還是連數(shù)量都搞不清楚。
而勉強(qiáng)解說了的 8 個(gè)(實(shí)際上是 6 個(gè),因?yàn)橛袃蓚€(gè)是重復(fù)的)圖,只有左下和右下兩張圖是對(duì)的,至于 middle 指的到底是哪一行,我們不得而知……
或許是這樣細(xì)小的差別實(shí)在是難為 Gemini 了,我們接下來換一些圖形推理題試試。
第一題的前四個(gè)符號(hào)是由 1-4 這四個(gè)數(shù)字與鏡像后的結(jié)果拼接而成,所以下一個(gè)圖應(yīng)該是 5 與其鏡像拼接,答案是 C。(藍(lán)色塊是為了方便觀察,傳給 Gemini 的圖中沒有)
這里一開始還出現(xiàn)了一段小插曲:最開始的提示詞中是沒有最后一句話(注意字母不是符號(hào)本身)的,結(jié)果 Gemini 真的就把 ABCD 這四個(gè)字母當(dāng)成了備選的符號(hào)。
調(diào)整之后,Gemini 前面給出的分析基本正確,可惜到最后選擇了錯(cuò)誤選項(xiàng) D。
第二題,每個(gè)框中的第三個(gè)符號(hào)是前兩個(gè)的交集,答案為 A。
結(jié)果 Gemini 研究起了這些表情,一番分析猛如虎,最后給出的答案還是錯(cuò)的。
兩道題下來,一道對(duì)了百分之七八十,另一道完全錯(cuò)誤,看來 Gemini Pro 的圖形推理能力還有很大提升空間。
不過如果把目光放到生活場(chǎng)景當(dāng)中,Gemini 的表現(xiàn)還是值得肯定的。
我們用 ChatGPT(DALL?E)生成了一張包含雞肉、胡蘿卜和黃瓜的圖片,Gemini 正確地識(shí)別出了這三種食材,然后給出了很多種可以烹飪的菜肴,而且每個(gè)都配有圖片和教程鏈接。
這么多測(cè)試結(jié)果看下來,回到最初的問題,有了 Gemini 還有必要為 GPT-4 付費(fèi)嗎?
沃頓商學(xué)院副教授 Ethan Mollick 給出一個(gè)不錯(cuò)的建議:
沒有什么理由再使用 ChatGPT 的免費(fèi)版本了,現(xiàn)在已經(jīng)被 Bard 和 Claude 超越,而且它們都是免費(fèi)的。
但你或許應(yīng)該繼續(xù)使用 GPT-4,它仍然占主導(dǎo)地位,并且在必應(yīng)(只有創(chuàng)意模式是 GPT -4)中是免費(fèi)的。
明年將結(jié)合 AlphaGo 能力升級(jí)
除了 Gemini 實(shí)際效果,60 頁技術(shù)報(bào)告中披露的更多細(xì)節(jié)也是研究人員和開發(fā)者關(guān)注所在,
關(guān)于參數(shù)規(guī)模,只公布了最小的 Nano 版本,分為 1.8B 的 Nano-1 和 3.25B 的 Nano-2 兩個(gè)型號(hào),4-bit 量化,是蒸餾出來的,可以運(yùn)行在本地設(shè)備如 Pixel 手機(jī)上。
Pro 版本和 Ultra 版本規(guī)模保密,上下文窗口長(zhǎng)度統(tǒng)一 32k,注意力機(jī)制使用了 Multi-Query Attention,此外沒有太多細(xì)節(jié)了。
值得的關(guān)注的是微調(diào)階段,報(bào)告中透露使用了 SFT+RLHF 的指令微調(diào)組合,也就是使用了 ChatGPT 的方法。
另外也引用了 Anthropic 的 Constitutional AI,也就是結(jié)合了 Claude 的對(duì)齊方法。
關(guān)于訓(xùn)練數(shù)據(jù)也沒披露太多細(xì)節(jié),但之前有傳聞稱谷歌刪除了來自教科書的有版權(quán)數(shù)據(jù)。
Gemini 拖了這么久才發(fā),之前被曝光的消息還有不少,比如谷歌創(chuàng)始人 Sergey Brin 一直親自下場(chǎng)對(duì)模型進(jìn)行評(píng)估并協(xié)助訓(xùn)練。
結(jié)合最近 OpenAI Q * 項(xiàng)目的傳聞,大家最關(guān)心的莫過于:
Gemini 到底有沒有結(jié)合 AlphaGo 的能力?如 RLHF 之外更多的強(qiáng)化學(xué)習(xí)、搜索算法等。
關(guān)于這一點(diǎn),DeepMind 創(chuàng)始人哈薩比斯在最新接受連線雜志采訪時(shí)作出了回應(yīng):
我們有世界上最好的強(qiáng)化學(xué)習(xí)專家……AlphaGo 中的成果有望在未來改善模型的推理和規(guī)劃能力…… 明年大家會(huì)看到更多快速進(jìn)步。
省流版本:還沒加,明年加。
這次 Gemini 開發(fā)整合了原谷歌大腦和 DeepMind 兩個(gè)團(tuán)隊(duì),整個(gè)開發(fā)團(tuán)隊(duì)有超過 800 人(作為對(duì)比,OpenAI 整個(gè)公司約 770 人)。
其中核心貢獻(xiàn)者前六位的名字首字母,恰好組成了 Gemini 這個(gè)單詞,也算一個(gè)小彩蛋。
許多參與者也在個(gè)人賬號(hào)發(fā)表了感想,其中 DeepMind 老員工 Jack Rae 此前在 OpenAI 工作一段時(shí)間,今年 7 月份從 OpenAI 跳回到谷歌,他可能是唯一一位對(duì) GPT-4 和 Gemini 都有貢獻(xiàn)的人類了。
也有反著跳的,中科大校友 Jiahui Yu 在 10 月份從谷歌跳去了 OpenAI,之前擔(dān)任 Gemini 多模態(tài)團(tuán)隊(duì)的視覺共同負(fù)責(zé)人。
除了團(tuán)隊(duì)成員之外,Gemini 今天也是整個(gè) AI 行業(yè)最大的話題。
其中著名 OpenAI 爆料賬號(hào) Jimmy Apples,@Sam Altman 并暗示 OpenAI 還有沒發(fā)布的大招。
而 HuggingFace 聯(lián)創(chuàng) Thomas Wolf 認(rèn)為,谷歌錯(cuò)過了一個(gè)重要機(jī)會(huì):
如果 Gemini 開源,對(duì) OpenAI 和 Meta 來說都是一記絕殺,上一次谷歌開源 Bert 的時(shí)候,整個(gè) AI 行業(yè)都被重塑了。
Gemini 技術(shù)報(bào)告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
參考鏈接:
[1]https://x.com/AravSrinivas/status/1732427844729581764
[2]https://x.com/DimitrisPapail/status/1732529288493080600
[3]https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5
[4]https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
[5]https://x.com/ScottDavidKeefe/status/1732440398423867472
[6]https://x.com/goodside/status/1732461772794220919
[7]https://x.com/emollick/status/1732485517692776714
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢(mèng)晨 克雷西
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。