谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版，現(xiàn)已支持處理音頻

2024/4/9 20:35:21 來(lái)源：IT之家作者：問(wèn)舟 責(zé)編：問(wèn)舟

評(píng)論：

IT之家 4 月 9 日消息，谷歌之前在 Google Next 大會(huì)上宣布將首次通過(guò)其 AI 應(yīng)用平臺(tái) Vertex AI 向公眾開(kāi)放 Gemini 1.5 Pro。

谷歌現(xiàn)已推出 Gemini 1.5 Pro 公共預(yù)覽版，并借此為其賦予了“耳朵”，從而幫助用戶處理音頻內(nèi)容，例如可以直接上傳一份音頻文件讓它來(lái)分析，或者上傳一份財(cái)報(bào)電話會(huì)議錄音或視頻來(lái)讓它總結(jié)。

谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版，現(xiàn)已支持處理音頻

據(jù)稱，這個(gè) Gemini 系列中定位“中量級(jí)”模型的版本在性能上已經(jīng)超越了自家更大的模型 ——Gemini Ultra。谷歌稱，Gemini 1.5 Pro 可以理解復(fù)雜的指令，并且無(wú)需對(duì)模型進(jìn)行微調(diào)。

當(dāng)然，Gemini 1.5 Pro 目前僅限于 Vertex AI 用戶體驗(yàn)，而 Gemini Ultra 則因?yàn)?nbsp;Gemini 聊天機(jī)器人的原因?yàn)樗?Pro 用戶提供服務(wù)。不過(guò)，盡管 Gemini Ultra 功能更多并且能夠理解長(zhǎng)指令，但處理速度不如 Gemini 1.5 Pro。

谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版，現(xiàn)已支持處理音頻

實(shí)際上，Gemini 1.5 Pro 并非唯一獲得更新的谷歌大模型，輔助 Gemini 生成圖像的文生圖模型 Imagen 2 也將加入圖片修復(fù)和擴(kuò)充功能，使用戶可以添加或移除圖像元素。

IT之家注意到，谷歌還為 Imagen 模型的所有圖片提供了數(shù)字水印功能“SynthID”。簡(jiǎn)單來(lái)說(shuō)，SynthID 在圖像中添加了一個(gè)用戶不可見(jiàn)的防偽標(biāo)識(shí)，但可以通過(guò)檢測(cè)工具來(lái)確認(rèn)其來(lái)源。

值得注意的是，Imagen 的許多新功能，例如圖片修復(fù)和擴(kuò)充，已經(jīng)出現(xiàn)在其他文生圖模型中，例如 Stability AI 的 Stable Diffusion 和 Getty 公司的 Generative AI by iStock 上，更不用說(shuō)最新款三星 Galaxy 手機(jī)還有類似的功能。

谷歌表示，他們還將在公開(kāi)預(yù)覽中嘗試將 AI 響應(yīng)與谷歌搜索結(jié)果結(jié)合，以便利用最新情報(bào)進(jìn)行解答。

參考資料：

《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版，現(xiàn)已支持處理音頻

相關(guān)文章

谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版，現(xiàn)已支持處理音頻