首頁 > 智能時代>人工智能

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

量子位 2024/7/26 22:36:43 責編：清源

評論：

Meta、OpenAI 等大模型廠商密集發(fā)力之際，谷歌也宣布了一項重磅更新 ——

即日起，Gemini 聊天機器人將改由 Gemini 1.5 Flash 驅(qū)動。

與之前的版本相比，窗口長度提高到了 4 倍，響應(yīng)速度也更快了。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

按照谷歌的介紹，新版聊天機器人背后的 1.5 Flash 模型，主打的就是輕量化和速度提升。

當然模型回復(fù)的質(zhì)量也有提升，上下文窗口也從原先（基于 1.0 Pro）的 8k 提升到了 32k。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

此外新版聊天機器人還增加了“事實核查”功能，可以一鍵檢測生成的內(nèi)容是否屬實，減輕模型幻覺帶來的不良影響。

有網(wǎng)友感嘆，谷歌今天表現(xiàn)真的很強，先是兩款 Alpha 系模型（拿下了 IMO 銀牌），接著 Gemini 也發(fā)布了更新。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

還有人開啟了許愿模式，期待 Google Scholar 學術(shù)搜索當中也能加入 AI 功能。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

更長上下文窗口，速度也變快了

本次更新的最主要內(nèi)容，就是把免費版背后的模型從 1.0Pro 換成了 1.5 Flash。

Gemini 1.5 Flash 最早亮相于 5 月的谷歌 I / O 開發(fā)者大會。

通過訓(xùn)練數(shù)據(jù)的“蒸餾”，Gemini 1.5 Flash 用更輕量化的體積實現(xiàn)了較高的生成質(zhì)量。

而且小體積也讓模型的速度更快、效率更高，同時它還支持多模態(tài)推理。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

谷歌介紹，此次更換模型之后，聊天機器人的速度會變得更快，同時舊版 8k 的上下文窗口，擴增到了 32k。

不過 1.5 Flash 自身是支持 1 百萬的上下文的，這樣的削減幅度屬實是不小，但畢竟是免費版本。

除了模型的升級，另外一項重要更新就是事實核查功能了。

在最新的 Gemini 聊天機器人當中，可以通過該功能一鍵對輸出的內(nèi)容進行檢查。

系統(tǒng)會針對輸出中的內(nèi)容在谷歌上進行搜索和比對，然后標記出相符和不符之處。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

有網(wǎng)友評論說，看到 OpenAI 上線 GPT-4o mini 時就覺得谷歌上新只是個時間問題。

的確，不僅是 OpenAI 和谷歌，Meta、Mistral 等在做大模型的廠商最近都是動作頻繁。

而關(guān)于模型的表現(xiàn)，這位網(wǎng)友也表示自己試過 1.0 Pro 和 1.5 Flash，兩者表現(xiàn)幾乎相同，而 1.5 Flash 速度更快。

所以，谷歌的這波操作，一定程度上也是適應(yīng)了最近興起的“模型輕量化”趨勢。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

那么，更換了 1.5 Flash 之后的 Gemini 聊天機器人，表現(xiàn)到底怎樣呢？

一鍵檢查模型輸出

量子位對新版的聊天機器人進行了簡單測試。

首先來看一下這次更新的事實核查功能，第一步是像正常對話一樣隨便提一個問題，Gemini 也會正常作答。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

可以看到在答案的下方有一個谷歌的 logo，這就是事實核查功能的按鈕了。

點擊之后系統(tǒng)會自動在谷歌進行搜索，然后與自己的輸出內(nèi)容進行比對。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

比對完成后，能夠搜索到信源且相符的內(nèi)容會被高亮為綠色，如果與搜索結(jié)果存在出入，則會以淺紅底色標注。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

點擊標注的位置，可以看到 Gemini 用于對比的內(nèi)容鏈接。

需要注意的是，這樣的標注并不意味著輸出的內(nèi)容是錯誤的，比如這里引用的對比資料中，湯姆克魯斯的母親是 Marry Lee South。

由于文本不匹配，導(dǎo)致答案中這一部分被系統(tǒng)標注，但實際上兩個都是正確答案。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

由于這個事實核查依靠的是互聯(lián)網(wǎng)搜索，對比資料的質(zhì)量也是參差不齊，不一定能做到 100% 的準確。

比如關(guān)于“林黛玉倒拔垂楊柳”這個經(jīng)典段子，Gemini 明明給出了正確答案，結(jié)果卻被標紅了。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

再一看引用的對比信息，屬實是有些難繃了。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

所以這個功能的作用，主要是提供了一個更便捷的核查途徑，但具體應(yīng)當如何采信，還是要依靠多方查證，以及用戶自己的判斷。

另外，關(guān)于模型本身，我們也測試了幾個最近流行的讓大模型屢屢碰壁的難題。

比如數(shù)字比大小，Gemini 甚至把兩個數(shù)字換算成了錢，但一通操作之后最后的結(jié)果是…… 錯的。

自從這個問題被發(fā)現(xiàn)以來，如果這個是第二搞笑的答案的話，應(yīng)該沒有哪個模型敢稱第一了。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

還有一開始給了個錯誤答案，后面分析過程中糾正過來的。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

但如果用英語提問，還是有希望直接答對的。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

還有數(shù)字母的問題，這個回答竟然能從中文里數(shù)出字母來…… 也是把人給整不會了，完全不在預(yù)判之內(nèi)。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

最后，關(guān)于此次更新中提到的速度提升，經(jīng)測試發(fā)現(xiàn)，Gemini 1.5 Flash 輸出第一個字的耗時要短于 Claude 3 Haiku，后續(xù)的速度用肉眼觀察區(qū)別不是很明顯。

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

以上就是 Gemini 1.5 Flash 在聊天機器人中的表現(xiàn)，感興趣的讀者可以自行嘗試。

參考鏈接：

[1]https://blog.google/products/gemini/google-gemini-new-features-july-2024/
[2]https://x.com/GeminiApp/status/1816512086232731696

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

更長上下文窗口，速度也變快了

一鍵檢查模型輸出

相關(guān)文章

大模型廠商密集發(fā)力，谷歌也開“卷”了：Gemini 聊天機器人換上新模型，還能一鍵核查輸出內(nèi)容

更長上下文窗口，速度也變快了