設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 AI 繪畫 4 大牛攜手創(chuàng)業(yè),天使估值 7 個(gè)億

量子位 2023/3/4 12:40:02 責(zé)編:夢澤

最近的谷歌像個(gè)大漏勺,這不,又有 AIGC 核心成員聯(lián)手跑路咯!

量子位獨(dú)家獲悉,這回跟谷歌 say byebye 的,是文生圖核心團(tuán)隊(duì) ——AI 繪畫模型 Imagen 論文的四位核心作者,出走目的是要搞自己的 AI 公司。雖然公司名稱暫未對(duì)外公布,但新公司將一以貫之的路線是很清楚的:

以 Imagen 為基礎(chǔ),沿著原來的項(xiàng)目做下去,不僅繼續(xù)做文生圖,還要做視頻方向。

核心人才創(chuàng)業(yè),自然少不了 VC 塞錢 —— 已經(jīng)按 1 億美元的驚人天使估值完成了首輪融資,而且更多 VC 想給錢而趕不上、投不進(jìn)。

這也算是文生圖、文生視頻、AIGC 賽道上,最知名的研究團(tuán)隊(duì)之一了。

文生圖骨干成員共創(chuàng) AIGC 新公司

新公司聯(lián)創(chuàng)四人,Chitwan Saharia、William Chan、Jonathan Ho 以及 Mohammad Norouzi,都出自谷歌。

他們之前精力重點(diǎn)放在 AIGC 的文生圖板塊,是谷歌用來對(duì)抗 DALLE-2 的大殺器 Imagen 的論文共同作者,位置都挺重要的那種。

先來介紹一下 Chitwan Saharia,也是 Imagen 的共同一作。

Chitwan 本科畢業(yè)于孟買理工學(xué)院計(jì)算機(jī)科學(xué)與工程專業(yè),在孟買理工學(xué)院和蒙特利爾大學(xué)都當(dāng)過程序和算法方面的研究助理。2019 年加入谷歌,base 多倫多,花了 3 年時(shí)間從二級(jí)軟件工程師做到高級(jí)研究科學(xué)家,去年 12 月從谷歌離職。

Chitwan 有語音識(shí)別、機(jī)器翻譯的經(jīng)驗(yàn),在谷歌工作時(shí),主要負(fù)責(zé)領(lǐng)導(dǎo) image-to-image 擴(kuò)散模型的工作。

第二位 William Chan,也是 Imagen 論文共同一作。他同樣出身計(jì)算機(jī)工程,先后就讀于加拿大滑鐵盧大學(xué)、卡內(nèi)基梅隆大學(xué),中間在新加坡國立大學(xué)當(dāng)過 1 年交換生。

在卡內(nèi)基梅隆大學(xué)拿下博士學(xué)位后,William 還在加拿大最大的社區(qū)學(xué)院之一喬治布朗學(xué)院,主攻烘焙和烹飪(?),學(xué)了 3 年。

Willian 從 2012 年起加入谷歌,于 2016 年成為谷歌大腦的一份子,去年 5 月離職時(shí),他已經(jīng)是谷歌大腦多倫多的研究科學(xué)家了。

然后要介紹的是 Jonathan Ho,UC 伯克利博士畢業(yè)。

他不僅是 Imagen 論文的 core contribution,還是 Diffusion Model 奠基之作《Denoising Diffusion Probabilistic Models》的一作。

博士畢業(yè)于 UC 伯克利計(jì)算機(jī)科學(xué)專業(yè)的 Jonathan,之前在 OpenAI 當(dāng)過 1 年的研究科學(xué)家,后來在 2019 年加入谷歌,共工作了 2 年零 8 個(gè)月,去年 11 月以研究科學(xué)家的身份從谷歌離職。

新公司的最后一位聯(lián)創(chuàng)叫 Mohammad Norouzi,也是 Imagen 論文的共同一作。

Mohammad Norouzi

他在多倫多大學(xué)計(jì)算機(jī)科學(xué)博士就讀期間,拿到了谷歌 ML 博士獎(jiǎng)學(xué)金。畢業(yè)后他加入谷歌大腦,在那兒工作了 7 年,在谷歌的最后 title 是高級(jí)研究科學(xué)家,工作重點(diǎn)是生成模型。

同時(shí),Mohammad 也是谷歌神經(jīng)機(jī)器翻譯團(tuán)隊(duì)的原始成員,SimCLR 的聯(lián)合發(fā)明人。他在 GitHub 主頁上小小地透露了自己的最近動(dòng)態(tài):

目前,我在一家初創(chuàng)公司工作,公司使命是推進(jìn)人工智能的發(fā)展水平,幫助人類提高創(chuàng)造力。

我們正在招聘!

這句話以外,關(guān)于新公司的更多信息,四人在任何社交平臺(tái)都沒有更詳細(xì)的透露。

這已經(jīng)是谷歌最近漏出去的第 n 波人了。

就拿剛剛過去的 2 個(gè)月來說,先是包括顧世翔(Shane Gu,‘讓我們一步一步地思考’研究者)在內(nèi)的至少 4 名谷歌大腦成員加入 OpenAI;情人節(jié)時(shí),Hyung Won Chung 和 CoT 最早的一作 Jason Wei 攜手組團(tuán)叛逃 OpenAI。

本周三,您猜怎么著?嘿,又跑了一個(gè):

OpenAI 狂喜,只有谷歌大漏勺本勺受傷的世界誕生了。

Imagen 是什么?

了解完谷歌漏走的這四個(gè)人,回頭來說說為他們職業(yè)生涯贏得掌聲的 Imagen 項(xiàng)目。

Imagen 是谷歌發(fā)布的文生圖模型,發(fā)布時(shí)間在 DALL-E 2 新鮮出爐一個(gè)月以后。

本文開頭放的熊貓震驚表情包,就是朝 Imagen 輸入“一只非常快樂的毛茸熊貓打扮成了在廚房里做面團(tuán)的廚師的高對(duì)比度畫像,他身后的墻上還有一幅畫了鮮花的畫”后,得出的一張要素完備的 AI 生成畫作。

(不好意思,請(qǐng)自行斷句)

在 Imagen 出現(xiàn)之前,文生圖都共用一個(gè)套路,那就是 CLIP 負(fù)責(zé)從文本特征映射到圖像特征,然后指導(dǎo)一個(gè) GAN 或 Diffusion Model 生成圖像。

Imagen 不走尋常路,開辟了 text-to-image 新范式

純語言模型只負(fù)責(zé)編碼文本特征,具體 text-to-image 的工作,被 Imagen 丟給了圖像生成模型。

具體來講,Imagen 包含一個(gè)凍結(jié)的語言模型 T5-XXL(谷歌自家出品),當(dāng)作文本編碼器。T5-XXL 的 C4 訓(xùn)練集包含 800GB 的純文本語料,在文本理解能力上比 CLIP 強(qiáng)不少,因?yàn)楹笳咧挥糜邢迗D文對(duì)訓(xùn)練。

圖像生成部分則用了一系列擴(kuò)散模型,先生成低分辨率圖像,再逐級(jí)超采樣。

依賴于新的采樣技術(shù),Imagen 允許使用大的引導(dǎo)權(quán)重,所以不會(huì)像原有工作一樣使樣本質(zhì)量下降。這么一來,圖像具有更高的保真度,并且能更好地完成圖像-文本對(duì)齊。

概念說起來簡單,但 Imagen 的效果還是令人大為震撼的。

生成的狗子飆車技術(shù)一流:

比起爆火的 DALLE-2,Imagen 能更準(zhǔn)確地理解同時(shí)出現(xiàn)兩個(gè)顏色要求的情況:

一邊繪畫一邊寫字這種要求,Imagen 也成功完成,不僅寫得對(duì),還能加光影魔術(shù)手般的煙花特效(不是)。

以及對(duì)后來研究更有幫助的是,谷歌通過 Imagen 的研究,優(yōu)化了擴(kuò)散模型。

首先,增加無分類器引導(dǎo)(classifier-free guidance)的權(quán)重可以改善圖文對(duì)齊,同時(shí)卻會(huì)損害圖像保真度。

為了解決這個(gè) bug,在每一步采樣時(shí)引入動(dòng)態(tài)閾值(dynamic thresholding)這個(gè)新的新的擴(kuò)散采樣技術(shù),來防止過飽和。

第二,使用高引導(dǎo)權(quán)重的同時(shí)在低分辨率圖像上增加噪聲,可以改善擴(kuò)散模型多樣性不足的問題。

第三,對(duì)擴(kuò)散模型的經(jīng)典結(jié)構(gòu) U-Net 做了改進(jìn),變成了 Efficient U-Net。后者改善了內(nèi)存使用效率、收斂速度和推理時(shí)間。

后來在 Imagen 上微調(diào),谷歌還推出了能“指哪打哪”版本的文生圖模型 DreamBooth。只需上傳 3-5 張指定物體的照片,再用文字描述想要生成的背景、動(dòng)作或表情,就能讓指定物體“閃現(xiàn)”到你想要的場景中。

比如醬嬸兒的:

又或者醬嬸兒的:

大概是 Imagen 效果太過出色,劈柴哥后來親自宣發(fā)的谷歌 AI 生成視頻選手大將,就叫做“Imagen Video”,能生成 1280*768 分辨率、每秒 24 幀的視頻片段。

啊,等等,谷歌有 Imagen Vedio,這和四人的新公司不是撞方向了嗎?

仔細(xì)看了下論文,無論是 Imagen 還是 Imagen Video,各自都有大篇幅涉及風(fēng)險(xiǎn)、社會(huì)影響力的內(nèi)容。

出于安全、AI 倫理和公平性等方面考慮,Imagen 和 Imagen Vedio 都沒有直接開源或開放 API,甚至連 demo 都沒有。

哪怕市面上出現(xiàn)開源復(fù)刻版本,也不是最正宗的味道。

此前就曝出過在谷歌每年的內(nèi)部員工調(diào)查“Googlegeist”中,員工表示對(duì)谷歌執(zhí)行能力不佳的質(zhì)疑。也許,這四人出走,繼續(xù)做 Imagen,并做 Imagen 的視頻版,說不定就是為了想把項(xiàng)目放到一個(gè)更開放的 AI 環(huán)境。

而且這種出走創(chuàng)業(yè),也是熱錢大錢向 AIGC 洶涌的結(jié)果。

所以既然 AIGC 的創(chuàng)投熱潮已經(jīng)在太平洋那頭開啟,那應(yīng)該在太平洋這頭也不會(huì)悄無聲息。

或許你已經(jīng)聽說了一些同樣的大廠出走創(chuàng)業(yè),歡迎爆料說說~~

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:衡宇

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AIGC,谷歌

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知