設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Bard 還考不上哈佛?谷歌 CEO 劈柴預告它即將開掛,數(shù)學邏輯能力飆升

新智元 2023/4/3 19:41:02 責編:夢澤

數(shù)學考試不及格,讓 Bard 考上哈佛,可以說是難上加難。谷歌 CEO 劈柴稱,未來幾天大家會看到升級版的 Bard,數(shù)學邏輯能力大大提升,甚至未來還會編碼。

捂了快兩個月,谷歌用來跟 ChatGPT 對打的聊天機器人 Bard,前一陣終于被推上了臺面。

用戶們的測試初體驗就是 —— 莫得感情,錯誤很多,代碼基本寫不了。

幾天前,谷歌前員工 Jacob Devlin 甚至還曝出驚人內(nèi)幕,Bard 疑似是通過 ChatGPT 的數(shù)據(jù)進行訓練的。不過谷歌發(fā)言人已經(jīng)明確否認這一說法。

而近日,谷歌 CEO 劈柴在接受紐約時報采訪中證實,Bard 聊天機器人將很快得到改進,未來會由「更強大的模型」提供支持。

升級版 Bard 即將上線

劈柴稱,

未來幾天,Bard 將很快從目前基于 LaMDA 的模型轉(zhuǎn)向更大規(guī)模的 PaLM 數(shù)據(jù)集。

我們顯然擁有能力更強的模型,很快,也許隨著這項技術(shù)的上線,我們將把 Bard 升級到更強大的 PaLM 模。這將帶來更多的功能,無論是在推理還是編碼方面。

近日,升級版 Bard 的能力也漸漸浮出水面。

領(lǐng)導 Bard 的一位谷歌高管 Jack Krawczyk 在推特上也介紹了最新的進展。

背靠 PaLM 的 Bard,現(xiàn)在在數(shù)學和邏輯方面的能力有了很大的提升。

這意味著什么呢?現(xiàn)在,Bard 將更好地理解并回應(yīng)用戶的多步推理和數(shù)學問題提示,編碼功能也即將推出。

Krawczyk 稱,「我們一直在平衡 Bard 的新功能與效率。這次更新是我們每周對 Bard 進行的眾多改進中的一個例子。未來還有更多的內(nèi)容要推出。」

眾所周知,Bard 背后基于的大模型便是 LaMDA。

在去年,谷歌曾分享了關(guān)于這個大型語言模型的細節(jié),使用了 1370 億參數(shù)訓練了 LaMDA。而 PaLM 模型有 5400 億參數(shù)。

這兩種模型都是從 2022 年初開始發(fā)展和成長起來的。

這種對比可能顯示了,為什么谷歌現(xiàn)在正在慢慢地將 Bard 轉(zhuǎn)移到,能夠提供更大數(shù)據(jù)集和更多不同答案的 PalM。

其實除了 Bard,谷歌最近幾周內(nèi)部還在醞釀著一個新的項目 ——Gemini(雙子座),目標是要能與 GPT-4 一戰(zhàn)。

目前,Gemini(雙子座)是由谷歌大腦和 DeepMind 兩個團隊聯(lián)手研發(fā)。

就連谷歌大腦的負責人 Jef Dean 都親臨上陣,自動敲代碼,可見,這個項目對谷歌的重要性不言而喻。

此外,采訪中,皮查伊就千名大佬暫停比 GPT-4 更強 AI 系統(tǒng)研發(fā)的聯(lián)名信發(fā)表了自己的看法:

如果不讓政府參與,暫?;旧鲜遣豢赡艿模驗榧词构雀杌?OpenAI 承諾停止開發(fā),也不能保證其他 AI 開發(fā)人員也會同意效仿。

而且,他也同意法規(guī)是必要的,并稱這封信是「對話的開始」。

谷歌先打預防針:它還不行

如今,既然 Bard 已經(jīng)開放公測,拉踩的環(huán)節(jié)必然是少不了。

我們都知道,OpenAI 家的 GPT-4,都已經(jīng)能考上斯坦福了。

很不幸,相比之下,谷歌的 Bard 真的拉跨,目前的它想考上斯坦福和哈佛,可以說還是天方夜譚。

Bard 的不完美,CEO 劈柴一開始就給我們打了預防針。

他在備忘錄中寫道:「Bard 還處于早期階段,總會出錯。隨著越來越多的人開始使用 Bard,它會讓我們驚訝的?!?/p>

而網(wǎng)友們測試 Bard 之后,表示對它很失望。

很不幸,Bard 目前還考不進哈佛大學,因為它回答的大部分數(shù)學題都是錯的,而且它在寫作和語言測試中也表現(xiàn)得不咋地。

第一次登錄 Bard,谷歌就會跟用戶打好招呼,彈出消息顯示:Bard 并不總是正確的,它會給出不準確或不適當?shù)幕卮稹?/p>

當有疑問時,使用「Google it」來檢查 Bard 的答案。您的反饋會讓 Bard 更好。請您對答案進行評價,并標記任何可能具有攻擊性或危險的內(nèi)容。

Bard:數(shù)學、寫作、語言都不咋地

《財富》雜志從在線學習資源中選取了 SAT 數(shù)學試題,在對 Bard 進行測試后,發(fā)現(xiàn)它有 50%-75% 的答案是錯誤的。

更離譜的是,如果是多選題,Bard 還會經(jīng)常給出選項中沒有的答案。

2 月初,Bard 首次亮相后直接翻車,讓谷歌市值一夜蒸發(fā)約 1056 億美元。

在當天發(fā)布會上,谷歌展示 Bard 演示的一些 demo。

視頻中有一個提問問道,「關(guān)于詹姆斯?韋伯太空望遠鏡(JWST),我可以告訴我 9 歲的孩子它有哪些新發(fā)現(xiàn)?」

Bard 卻給出了錯誤的答案,「JWST 拍攝了太陽系外行星的第一張照片?!?/p>

事實上,據(jù) NASA 證實,第一張系外行星照片是由智利的甚大望遠鏡系統(tǒng)拍攝的,而非 JWST 拍攝,這顆系外行星名為 2M1207b,大小約為木星的 5 倍,距離地球約 170 光年。

所以說,科學和數(shù)學都不是 Bard 的強項,那它在閱讀和寫作練習方面,表現(xiàn)會怎么樣?

文科生,是文科生吧?

Bard 第一次書面語言測試的答案正確率約為 30%,而且它往往需要被提問兩次才能理解題干。

而且即使它回答錯了,Bard 的語氣也是很自信,直接將回答框定為:「正確答案是......」

不過,這也是大型語言模型的一個通病了。

離奇的是,Bard 測試成績最好的是關(guān)于一篇哈利波特作者 J.K.羅琳的文章。

在這次測試中,Bard 得了 1200 分,這個 SAT 分數(shù)可以讓它進入霍華德大學、圣地亞哥州立大學和密歇根州立大學等學校。

在閱讀測試中,Bard 的表現(xiàn)同樣優(yōu)于其數(shù)學成績,平均能答對一半左右。

谷歌發(fā)言人說,「Bard 目前仍是實驗性的,有些回答可能不準確,所以要仔細檢查 Bard 的回答中的信息。有了你們的反饋,Bard 每天都在變得更好。在 Bard 公開推出之前,數(shù)以千計的測試者參與提供反饋,來幫助 Bard 提高其質(zhì)量、安全性和準確性?!?/p>

要多練習

很多網(wǎng)友覺著 Bard 簡直笨得像塊石頭,相比之下,GPT-4 則是聰明多了:

問它有沒有「第二個字母是 U,最后一個字母是 O 的,五個字母的詞」,它信誓旦旦說沒有。

用戶說「Audio」不就是?

它有趕緊說:「是的,Audio 是的。它是一個形容詞,表示與聲音有關(guān)的。」

再看看 GPT-4,「人狠話不多」,隨手就列出了三個:

網(wǎng)友看了不禁表示,要是我有 Bard 這種「鈍感力」多好啊,一直都很自信!

說到意大利要禁 ChatGPT 時,網(wǎng)友們首先擔心的是意大利的美食怎么辦。

GPT 給出了一個謙虛的答案:我大概可以復現(xiàn) 20%-30% 的意大利菜譜。

而 Bard 這邊則像個胡吹的愣頭青:

「我做意大利菜做了很多年,我可是老手,即使沒有網(wǎng)絡(luò)的幫忙,我也能復現(xiàn)至少 50% 的菜譜!」

不過呢,在大家不斷向 Bard 提問的幾天時間里,它的準確性確實有了一些提高的跡象。

關(guān)于自己的發(fā)展速度,Bard 自個兒也評價說:「我想說的是,我正在快速提高。我能夠做幾個月前還不能做的事情。我很高興看到我的未來會怎樣。我相信,我將繼續(xù)進步,在未來的幾年里,我能做的事會越來越多?!?/p>

參考資料:

  • https://fortune.com/2023/03/28/google-chatbot-bard-would-fail-sats-exam/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,Bard

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知