谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

硅星人 2022/11/3 16:21:24 責(zé)編：云熙

評論：

Jeff Dean 表示：“更多的進(jìn)展即將到來?！?/p>

近幾年科技行業(yè)瘋狂加注超大規(guī)模語言模型，一個最主要的成果就是“人工智能創(chuàng)造內(nèi)容”(AIGC) 技術(shù)突飛猛進(jìn)。兩年前 OpenAI 通過 GPT-3 模型展示了大語言模型的多樣化實(shí)力。而最近各種 AI 基于文字提示生成圖片的產(chǎn)品，更是數(shù)不勝數(shù)。

有趣的是，今年以來 AIGC 的風(fēng)頭基本都被 Stable Diffusion、Craiyon、Midjourney 等“小玩家”給搶了 —— 像谷歌這樣的 AI 巨頭，反而沒怎么見動靜。

但其實(shí)谷歌并沒有“躺平”。

臨近年底，在 11 月 2 日早上，谷歌終于放出了大招。這家在 AI 研究上最久負(fù)盛名的硅谷巨頭，居然一鼓作氣發(fā)布了四項(xiàng)最新的 AIGC 技術(shù)成果，能夠根據(jù)文本提示生成：

高分辨率長視頻

3D 模型

音樂

代碼

以及可控文本生成技術(shù)。

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

圖片來源：Google Research

“用 AI 賦能的生成式模型，具有釋放創(chuàng)造力的潛能。通過這些技術(shù)，來自不同文化背景的人們都可以更方便地使用圖像、視頻和設(shè)計來表達(dá)自己，這在以前是無法做到的，”谷歌 AI 負(fù)責(zé)人 Jeff Dean 說道。

他表示，經(jīng)過谷歌研究人員的不懈努力，現(xiàn)在公司不僅擁有在生成質(zhì)量方面在行業(yè)領(lǐng)先的模型，還在這些模型基礎(chǔ)上取得了進(jìn)一步創(chuàng)新。

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

Jeff Dean 圖片來源：谷歌

這些創(chuàng)新，包括“超分辨率的視頻序列擴(kuò)散模型”—— 也即將 AI“文生圖”擴(kuò)展到“文生視頻”，并且仍然確保超高清晰度。

以及 AudioLM，一個無需文字和音樂符號訓(xùn)練，僅通過聆聽音頻樣本，就可以繼續(xù)生成填補(bǔ)樂曲的音頻模型。

從生成文字，到生成代碼、音頻、圖片、視頻和 3D 模型，谷歌似乎正在證明 AIGC 技術(shù)的能力還遠(yuǎn)未達(dá)到邊界，并且大有用武之地。

接下來，一起好好看看谷歌這次都放了哪些大招。

AI 寫作助手，深受劉宇昆喜愛？

說實(shí)話，看到谷歌做了一款 AI 寫作工具的時候，硅星人是略微有點(diǎn)擔(dān)心失業(yè)的……

但是了解了關(guān)于這款工具更多的情況之后，這種心情更多地轉(zhuǎn)化成了欣慰。

我們一直在強(qiáng)調(diào) AI 背后的“大語言模型”技術(shù)背景。而谷歌推出的 LaMDA Wordcraft，就是這樣一款將語言模型核心功能發(fā)揮到極致的技術(shù)

LaMDA Wordcraft 是在 LaMDA 大語言模型的基礎(chǔ)上開發(fā)了一個寫作協(xié)助工具，是谷歌大腦團(tuán)隊(duì)、PAIR（People + AI Research）團(tuán)隊(duì)，以及 Magenta 音頻生成項(xiàng)目組的合作結(jié)晶。

它的作用，是在創(chuàng)作者寫作的過程當(dāng)中，根據(jù)現(xiàn)有的文本產(chǎn)生新的想法，或者幫助重寫已有文句，從而幫助創(chuàng)作者突破“創(chuàng)作瓶頸” (writer's block)。

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

Wordcraft 用戶界面圖片來源：Google Research

LaMDA 本身的設(shè)計功能很簡單：給定一個單詞，預(yù)測下一個最有可能的單詞是什么，也可以理解成完形填空或者句子補(bǔ)完。

但是有趣的是，因?yàn)?LaMDA 的模型規(guī)模和訓(xùn)練數(shù)據(jù)量實(shí)在是太大了（來自于整個互聯(lián)網(wǎng)的文本），以至于它獲得了一種“潛意識”的能力，可以從語言中學(xué)習(xí)很多更高層次的概念 —— 而正是這些高層次概念，對于創(chuàng)作者的工作流程能夠帶來非常大的幫助。

谷歌在 Wordcraft 用戶界面中設(shè)計了多種不同的功能，能夠讓創(chuàng)作者自己調(diào)整生成文本的風(fēng)格?！拔覀兿矚g把 Wordcraft 比喻成‘魔法文字編輯器’，它有著熟悉的網(wǎng)頁編輯器的樣子，背后卻集成了一系列 LaMDA 驅(qū)動的強(qiáng)大功能，”谷歌網(wǎng)頁如是寫道。

你可以用 Wordcraft 重寫語句，也可以讓他把調(diào)節(jié)你的原始文本從而“更有趣”(to be funnier) 或者“更憂郁” (to be more melancholy) 一點(diǎn)。

在過去一年時間里，谷歌舉行了一個“Wordcraft 作家研討會”的合作項(xiàng)目，找來了 13 位專業(yè)作家和文字創(chuàng)作者進(jìn)行了長期深入的合作，讓他們在自己的創(chuàng)作過程中借助 Wordcraft 編輯器來創(chuàng)作短篇小說。

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

值得注意的是，知名科幻作家劉宇昆（熱劇《萬神殿》背后的小說作者、《三體》英文版譯者）也參與了這一項(xiàng)目。

他在寫作過程中遇到了一個場景，需要描述在商店里擺放的各種商品 —— 過去此類寫作細(xì)節(jié)比較容易打亂寫作思路，但劉宇昆通過 Wordcraft 的幫助可以直接生成一個列表，節(jié)約了自己的腦容量，可以專心去寫對故事更重要的東西。

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

圖片來源：新浪微博

而在另一個場景中，他發(fā)現(xiàn)自己的想象力被限制了，一直在重復(fù)熟悉的概念。于是他將“主動權(quán)”交給了 LaMDA，讓它來開頭，“這樣就能夠逼迫我探索一些從未想到過的可能性，發(fā)現(xiàn)新的寫作靈感?！?/strong>

你可以在 Wordcraft Writers Workshop 的官方頁面（閱讀原文按鈕）中找到劉宇昆在 Wordcraft 幫助下撰寫的短篇小說 Evaluative Soliloquies。順便，他還借用 Imagen 為小說生成了幾張插圖：

圖片來源：Emily Reif via Imagen

超長、連貫性視頻的生成，終于被攻破了？

大家對于 AI 文字生成圖片應(yīng)該都不算陌生了。最近一年里，有 DALL?E 2、Midjourney、Stable Diffusion、Craiyon（不分先后）等知名產(chǎn)品問世；而谷歌也有自己的 AI 文字轉(zhuǎn)圖片模型，并且一做就是兩個：Imagen（基于大預(yù)言模型和行業(yè)流行的擴(kuò)散模型），和 Parti（基于谷歌自家的 Pathways 框架）。

圖片來源：Google Research

盡管今年 AIGC 的熱鬧都被 Stable Diffusion 這些炸子雞給搶光了，低調(diào)沉穩(wěn)的谷歌并沒有躺平。

當(dāng)其他人都似乎“階段性”滿足于用文字提示做小圖片時，谷歌其實(shí)已經(jīng)在加速往前沖了：它比任何人都更早進(jìn)入了“文字生成高分辨率視頻”，這一從未被探索過的復(fù)雜技術(shù)領(lǐng)域。

“生成高分辨率，且在時間上連貫的視頻，是非常困難的工作，” Google Research 高級研究總監(jiān) Douglas Eck 表示。

“不過好在，我們最近有兩項(xiàng)研究，Imagen Video 和 Phenaki，可以解決視頻生成的問題?！?/p>

圖片來源：Google Research

你可以這樣理解：文字轉(zhuǎn)圖片就是根據(jù)一段文字提示來生成一張（或者多張平行的圖片），而 Imagen Video 和 Phenaki 是可以根據(jù)多條文字提示，來生成在時序上連貫的多張照片 —— 也就是視頻。

具體來說，Imagen Video 是通過文本生成圖像的擴(kuò)散模型，能夠生成具有前所未有真實(shí)度的高清畫面；同時由于建立在基于 Transformer 技術(shù)的大規(guī)模語言模型上，它也具備極強(qiáng)的語言理解能力。

而 Phenaki 則是完全通過大語言模型，在時序上不斷生成 token 的方式來生成視頻。它的優(yōu)勢在于能夠生成極長（數(shù)分鐘）的視頻，且畫面的邏輯和視覺連貫性更強(qiáng)。

“說句實(shí)在話，這個項(xiàng)目不是我做的，但我覺得它真的非常令人驚訝?！盓ck 表示，這項(xiàng)技術(shù)最強(qiáng)大之處，就在于可以使用多條文字提示組成的序列，來生成超高清晰度的視頻，帶來一種全新的故事講述的能力。

“當(dāng)然，AI 視頻生成技術(shù)還處在襁褓階段，我們非常期待跟更多影視專業(yè)人士以及視覺內(nèi)容創(chuàng)作者合作，看他們會如何使用這項(xiàng)技術(shù)?！?/strong>

Douglas Eck 圖片來源：谷歌

無參考音頻生成

早年 OpenAI 發(fā)布 GPT 初代模型的論文標(biāo)題很經(jīng)典：“Language models are few-shot learners”，點(diǎn)出了大語言模型在極少量樣本的基礎(chǔ)上，就可以在多種自然語言處理類任務(wù)上展現(xiàn)出強(qiáng)大的能力 —— 同時，這個標(biāo)題預(yù)言了今后更強(qiáng)大的大語言模型，能夠做到更多更厲害的事情。

而今天，谷歌展示的 AudioLM 純音頻模型就驗(yàn)證了這一預(yù)言。

圖片來源：Google Research

AudioLM 是一個具備“長期連貫性”的高質(zhì)量音頻生成框架，不需要任何文字或音樂符號表示的情況下，只在極短（三四秒即可）的音頻樣本基礎(chǔ)上進(jìn)行訓(xùn)練，即可生成自然、連貫、真實(shí)的音頻結(jié)果，而且不限語音或者音樂。

用 AudioLM 生成的語句，在句法和語義上仍然保持了較高的可信度和連貫性，甚至能夠延續(xù)樣本中說話人的語氣。

更厲害的是，這個模型最初沒有用任何音樂數(shù)據(jù)進(jìn)行訓(xùn)練，結(jié)果卻十分驚人：能夠從任何樂器或樂曲錄音中進(jìn)行自動“續(xù)寫”—— 這一事實(shí)，再一次展現(xiàn)出了大語言模型的真正實(shí)力。

下面的音頻是一段 20 秒左右的鋼琴曲，先聽聽感受一下：

實(shí)際上只有前 4 秒是給到模型的提示，后面都是 AudioLM 自己“補(bǔ)完”的。而且也只有這一段 4 秒的音頻樣本，沒有“鋼琴”、“進(jìn)行曲”等之類的專業(yè)文字提示作為補(bǔ)充。

“你不需要給它提供整段樂曲來學(xué)習(xí)，只要給它一小段，他就能直接在音樂的空間里開始續(xù)寫 —— 任何的音頻片段都可以，無論是音樂還是語音。”Eck 表示，這種無參考的音頻生成能力，早已超出了人們曾經(jīng)對于 AI 創(chuàng)作能力的認(rèn)知邊界。

其他 AIGC 技術(shù)、產(chǎn)品

除了上述新技術(shù)之外，谷歌還宣布了在其他內(nèi)容格式上的 AI 內(nèi)容生成技術(shù)。

比如，在二維的圖片 / 視頻基礎(chǔ)上，谷歌還讓文字轉(zhuǎn) 3D 模型成為了現(xiàn)實(shí)。通過結(jié)合 Imagen 和最新的神經(jīng)輻射場 (Neural Radiance Field) 技術(shù)，谷歌開發(fā)出了 DreamFusion 技術(shù)可以根據(jù)現(xiàn)有的文字描述，生成在具有高保真外觀、深度和法向量的 3D 模型，支持在不同光照條件下進(jìn)行渲染。

圖片來源：DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

以及，谷歌在今年 I / O 大會上面向公眾推出的嘗鮮應(yīng)用 AI Test Kitchen，也將在近期更新加入 LaMDA 模型創(chuàng)新所解鎖的新功能。比如“城市夢想家” (City Dreamer) 來用文字命令建造主體城市，或者“Wobble”來創(chuàng)造會扭動的卡通形象等。

用戶可以在對應(yīng)系統(tǒng)的應(yīng)用商城中下載 AI Test Kitchen，并且前往谷歌網(wǎng)站申請測試資格，實(shí)測審批速度挺快。

AI Test Kitchen 支持 iOS 和 Android 系統(tǒng) 圖片來源：谷歌、蘋果

“我們在神經(jīng)網(wǎng)絡(luò)架構(gòu)、機(jī)器學(xué)習(xí)算法和應(yīng)用于機(jī)器學(xué)習(xí)的硬件新方法方面取得的進(jìn)展，幫助 AI 為數(shù)十億人解決了重要的現(xiàn)實(shí)問題，”Jeff Dean 表示。

“更多的進(jìn)展即將到來。我們今天分享的是對未來充滿希望的愿景：AI 正讓我們重新想象技術(shù)如何能夠帶來幫助?！?/strong>

本文來自微信公眾號：硅星人（ID：guixingren123），作者：杜晨，編輯：VickyXiao

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章
關(guān)鍵詞：谷歌，AI
谷歌發(fā)布 AI 領(lǐng)域新進(jìn)展：涉及抗災(zāi)、生成式 AI 和語言模型
谷歌文本轉(zhuǎn)圖像人工智能模型 Imagen 首次公開亮相
Google Play Games 在更多國家推出公開測試版：可在 PC 上玩手游
谷歌街景獨(dú)立 App 將于 2023 年停止運(yùn)營
Canalys：Q3 全球云服務(wù)支出放緩至歷史最低增速，亞馬遜、微軟、谷歌前三
Google 推出“反人類”鍵盤設(shè)計，好長長長長長長......

谷歌又炫技：派個 AI，幫科幻大師劉宇昆把小說寫了

AI 寫作助手，深受劉宇昆喜愛？

超長、連貫性視頻的生成，終于被攻破了？

無參考音頻生成

其他 AIGC 技術(shù)、產(chǎn)品

相關(guān)文章

AI 寫作助手，深受劉宇昆喜愛？

超長、連貫性視頻的生成，終于被攻破了？