設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 VideoPoet 負責人蔣路跳槽 TikTok!對標 Sora,AI 視頻模型大戰(zhàn)在即

新智元 2024/2/22 23:41:14 責編:清源
感謝IT之家網(wǎng)友 lemon_meta 的線索投遞!

【新智元導讀】谷歌 Research Lead,負責 VideoPoet 項目的蔣路,即將加入 TikTok,負責視頻生成 AI 的開發(fā)。

谷歌 VideoPoet 項目 Research Lead,CMU 兼職教授蔣路的 Google Scholar 資料顯示已加入 TikTok。

最近,有傳聞 TikTok 招募了某篇論文的作者作為北美技術部門負責人,研發(fā)能和 Sora 對抗的視頻生成 AI。

而蔣路 3 周前在 Linkedin 上發(fā)布了離職谷歌的消息,也向外界揭開了謎底。

他作為谷歌 VideoPoet 項目的負責人,將離開 Google Research,不過會留在灣區(qū),繼續(xù)視頻生成領域的工作。

「人才第一,數(shù)據(jù)第二,算力第三」,謝賽寧的 AI 突破「3 要素」,已經(jīng)為大廠在未來構建自己的 AI 護城河指明了方向。

而蔣路帶領谷歌團隊在去年年底推出了在技術路線上與 Sora 相似的視頻生成技術:VideoPoet,讓他成為了世界上為數(shù)不多的有能力構建最前沿 AI 視頻生成技術的科學家。

VideoPoet 在 Sora 發(fā)布之前就已經(jīng)將 AI 視頻的前沿推進到了生成 10 秒長,一致性非常強,動作幅度大且連貫的視頻。

而與此同時,他還是 CMU 的兼職教授,有非常豐富的科研經(jīng)歷和成果。

蔣路這樣既有深厚的理論功底,又有最前沿大型項目的工程和管理經(jīng)驗的復合型專家,自然成為了大廠必爭的 AI 基石型人才。

個人介紹

蔣路在 Google 擔任研究科學家和管理崗位,同時也是卡內(nèi)基梅隆大學計算機科學學院語言技術研究所的兼職教授。

在 CMU,他不僅指導研究生的科研項目,還親自講授課程。

他的研究成果在自然語言處理(ACL)和計算機視覺(CVPR)等領域的頂級會議上屢獲佳績,還在 ACM ICMR、IEEE SLT 和 NIST TRECVID 等重要會議上獲獎。

他的研究對多款谷歌產(chǎn)品的開發(fā)和完善起到了至關重要的作用:包括 YouTube、Cloud、Cloud AutoML、Ads、Waymo 和 Translate 等。

這些產(chǎn)品每天服務全球數(shù)十億用戶。

除了上述這些內(nèi)容以外,還有另一個側面能很好地說明蔣路學術水平的高度:他與眾多計算機視覺和自然語言處理領域的頂尖研究者都有過合作。

2017 至 2018 年期間,他是 Google Cloud AI 首批研究團隊的創(chuàng)始成員,由李佳博士和李飛飛博士親自挑選。

隨后,他加入了 Google Research,與 Weilong Yang 博士(2019-2020)、Ce Liu 博士(2020-2021)、Madison Le(2021-2022)和 Irfan Essa 博士(2023)等人都有過合作。

此外,在卡內(nèi)基梅隆大學讀博期間,他的論文由 Tat-Seng Chua 博士和 Louis-Philippe Morency 博士共同指導。2017 他在 Alexander Hauptmann 博士和 Teruko Mitamura 博士的幫助下成功畢業(yè)。

他在雅虎、谷歌和微軟研究院的實習時,得到了 Liangliang Cao 博士、Yannis Kalantidis 博士、Sachin Farfade、Paul Natsev 博士、Balakrishnan Varadarajan 博士、Qiang Wang 博士和 Dongmei Zhang 博士等人的指導。

從他在領英上的履歷可以看出,很多科技大廠都留有過他的足跡。

在 CMU 和 NSF 都有過實習經(jīng)歷。

而在畢業(yè)之前,他在雅虎,谷歌,微軟都實習過。

他本科畢業(yè)于西安交通大學,研究生畢業(yè)于布魯塞爾自由大學,博士畢業(yè)于 CMU。

VideoPoet

他在谷歌帶領的團隊在去年底推出的 VideoPoet,已經(jīng)用 Transformer 代替了傳統(tǒng)的 UNet,成為 AI 視頻生成當時的 SOTA.

這項成就,也成為了 TikTok 相中他最主要的原因。

相比起只能生成小幅動作的 Gen-2,VideoPoet 一次能夠生成 10 秒超長,且連貫大動作視頻,可以說是實現(xiàn)了完全碾壓!

另外,VideoPoet 也并非基于擴散模型,而是多模態(tài)大模型,便可擁有 T2V、V2A 等能力,或將成為未來視頻生成的主流。

相比起其他模型,谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對各個任務分別訓練的專用組件。

具體來說,VideoPoet 主要包含以下幾個組件:

  • 預訓練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態(tài)進行結合。

  • 自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態(tài)學習,并以自回歸方式預測序列中下一個視頻或音頻 token。

  • 在大語言模型訓練框架中引入了多種多模態(tài)生成學習目標,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復 / 擴展、視頻風格化和視頻到音頻等。此外,這些任務可以相互結合,實現(xiàn)額外的零樣本功能(例如,文本到音頻)。

VideoPoet 能夠在各種以視頻為中心的輸入和輸出上進行多任務處理。其中,LLM 可選擇將文本作為輸入,來指導文本到視頻、圖像到視頻、視頻到音頻、風格化和擴圖任務的生成

使用 LLM 進行訓練的一個關鍵優(yōu)勢是,可以重用現(xiàn)有 LLM 訓練基礎設施中引入的許多可擴展的效率改進。

不過,LLM 是在離散 token 上運行的,這可能會給視頻生成帶來挑戰(zhàn)。

幸運的是,視頻和音頻 tokenizer,可以將視頻和音頻剪輯編碼為離散 token 序列(即整數(shù)索引),并可以將其轉換回原始表示。

VideoPoet 訓練一個自回歸語言模型,通過使用多個 tokenizer(用于視頻和圖像的 MAGVIT V2,用于音頻的 SoundStream)來跨視頻、圖像、音頻和文本模態(tài)進行學習。

一旦模型根據(jù)上下文生成了 token,就可以使用 tokenizer 解碼器將這些 token 轉換回可查看的表示形式。

VideoPoet 任務設計:不同模態(tài)通過 tokenizer 編碼器和解碼器與 token 相互轉換。每個模態(tài)周圍都有邊界 token,任務 token 表示要執(zhí)行的任務類型

相比于之前的視頻生成模型,VideoPoet 有這么三個比較大的優(yōu)勢。

一個是能生成更長的視頻,一個是用戶能對生成的視頻有更好的控制能力,最后一個則是 VideoPoet 還可以根據(jù)文本提示,生成不同的運鏡手法。

而在測試中,VideoPoet 也是拔得頭籌,碾壓了不少其它視頻生成模型。

文本保真度

文本保真度的用戶偏好評級,即在準確遵循提示方面首選視頻的百分比

動作趣味性:

用戶對動作趣味性的偏好評級,即在產(chǎn)生有趣的動作方面,首選視頻的百分比

綜上可見,平均有 24-35% 的人認為 VideoPoet 生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅為 8-11%。

此外,41%-54% 的評估者認為 VideoPoet 中的示例動作更有趣,而其他模型只有 11%-21%。

而有關未來的研究方向,谷歌研究人員表示,VideoPoet 框架將會實現(xiàn)「any-to-any」的生成,比如擴展文本到音頻、音頻到視頻,以及視頻字幕等等。

參考資料:

  • http://www.lujiang.info/bio.html

  • https://scholar.google.com/citations?user=jIKjjSYAAAAJ&hl=en

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:谷歌,TikTok,Sora,蔣路

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知