首頁 > 科學(xué)探索>科技前沿

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

新智元 2023/1/7 20:40:05 責(zé)編：夢(mèng)澤

評(píng)論：

2022 超全的 AI 圈研究合集在這！知名博主 Louis Bouchard 自制視頻講解加短篇分析，對(duì)小白也超級(jí)友好。

雖然世界仍在復(fù)蘇，但研究并沒有放慢其狂熱的步伐，尤其是在人工智能領(lǐng)域。

此外，今年人們對(duì) AI 倫理、偏見、治理和透明度都有了新的重視。

人工智能和我們對(duì)人腦的理解及其與人工智能的聯(lián)系在不斷發(fā)展，在不久的將來，這些改善我們生活質(zhì)量的應(yīng)用將大放光彩。

知名博主 Louis Bouchard 也在自己的博客中盤點(diǎn)了 2022 年 32 項(xiàng)（!）AI 技術(shù)突破。

接下來讓我們一起看看，這些令人驚艷的研究都有哪些吧！

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

文章地址：https://www.louisbouchard.ai/ 2022-ai-recap/

LaMA：基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼修復(fù)

你肯定經(jīng)歷過這種情況：你和你的朋友拍了一張很棒的照片。結(jié)果，你發(fā)現(xiàn)有人在你身后，毀了你要發(fā)到朋友圈或者小紅書的照片。但現(xiàn)在，這不再是問題。

基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼修復(fù)方法，可以讓使用者輕松清除圖像中不需要的內(nèi)容。不論是人，還是垃圾桶都能輕松消失。

它就像是你口袋里的專業(yè) ps 設(shè)計(jì)師，只需輕輕一按，就能輕松清除。

雖然看似簡(jiǎn)單，但圖像修復(fù)是許多 AI 研究人員長(zhǎng)期以來一直需要解決的問題。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2109.07161

項(xiàng)目地址：https://github.com/ saic-mdal / lama

Colab Demo：https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ Ia79AvGzveQ

短篇分析：https://www.louisbouchard.ai/ lama/

STIT：基于 GAN 的真實(shí)視頻人臉編輯

你肯定有過這樣的經(jīng)歷：在看電影時(shí)，會(huì)發(fā)現(xiàn)電影中的演員看起來要比本人年輕得多。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

《雙子殺手》中的威爾?史密斯

之前，這需要專業(yè)人員花費(fèi)數(shù)百甚至數(shù)千小時(shí)的工作，手動(dòng)編輯這些演員出現(xiàn)的場(chǎng)景。但利用 AI，你可以在幾分鐘內(nèi)完成。

事實(shí)上，許多技術(shù)可以讓你增加笑容，讓你看起來更年輕或更老，所有這些都是使用基于人工智能的算法自動(dòng)完成的。它在視頻中被稱為基于 AI 的面部操作（AI-based face manipulations），代表了 2022 年的最新技術(shù)水平。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2201.08361

項(xiàng)目地址：https://github.com/ rotemtzaban / STIT

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ mqItu9XoUgk

短篇分析：https://www.louisbouchard.ai/ stitch-it-in-time/

NeROIC：利用在線圖庫的神經(jīng)渲染

神經(jīng)渲染可以通過物體、人物或場(chǎng)景的圖片，在空間中生成逼真的 3D 模型。

有了這項(xiàng)技術(shù)，你只需擁有某物體的幾張圖片，就可以要求機(jī)器了解這些圖片中的物體，并模擬出它在空間中的樣子。

通過圖像來理解物體的物理形狀，這對(duì)人類來說很容易，因?yàn)槲覀兞私庹鎸?shí)的世界。但對(duì)于只能看到像素的機(jī)器來說，這是一個(gè)完全不同的挑戰(zhàn)。

生成的模型如何融入新場(chǎng)景？如果照片的光照條件和角度不同，生成的模型也會(huì)因此變化，該怎么辦？這些都是 Snapchat 和南加州大學(xué)在這項(xiàng)新研究中需要解決的問題。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2201.02533

項(xiàng)目地址：https://github.com/ snap-research/NeROIC

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ 88Pl9zD1Z78

短篇分析：https://www.louisbouchard.ai/ neroic/

SpeechPainter：文本條件下的語音修復(fù)

對(duì)于圖像來說，基于機(jī)器學(xué)習(xí)的修復(fù)技術(shù)不僅可以移除其中的內(nèi)容，而且還能根據(jù)背景信息填充圖像的缺失部分。

對(duì)于視頻修復(fù)來說，其挑戰(zhàn)在于不僅要保持幀與幀之間的一致性，而且要避免生成錯(cuò)誤的偽影。同時(shí)，當(dāng)你成功地將一個(gè)人從視頻中「踢出去」之后，還需要把他 / 她的聲音也一并刪除才行。

為此，谷歌的研究人員提出了一種全新的語音修復(fù)方法，可以糾正視頻中的語法、發(fā)音，甚至消除背景噪音。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2202.07273

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ zIIc4bRf5Hg

短篇分析：https://www.louisbouchard.ai/ speech-inpainting-with-ai/

GFP-GAN：利用生成性面部先驗(yàn)，實(shí)現(xiàn)真實(shí)世界的盲臉修復(fù)

你是否有一些珍藏的舊照片，因?yàn)槟甏眠h(yuǎn)而畫質(zhì)模糊？不用擔(dān)心，有了盲臉修復(fù)技術(shù)（Blind Face Restoration），你的回憶會(huì)被歷久彌新。

這個(gè)全新且免費(fèi)的 AI 模型可以在一瞬間修復(fù)你的大部分舊照片。即使修復(fù)前的照片畫質(zhì)非常低，它也能很好地工作。這在之前通常是一個(gè)相當(dāng)大的挑戰(zhàn)。

更酷的是，你可以按照自己喜歡的方式進(jìn)行嘗試。他們已經(jīng)開源了代碼，創(chuàng)建了一個(gè)演示和在線應(yīng)用程序供大家試用。相信這項(xiàng)技術(shù)一定讓你大吃一驚！

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2101.04061

項(xiàng)目地址：https://github.com/ TencentARC / GFPGAN

Colab Demo：https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo

在線應(yīng)用：https://huggingface.co/ spaces / akhaliq / GFPGAN

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ nLDVtzcSeqM

短篇分析：https://www.louisbouchard.ai/ gfp-gan/

4D-Net：多模態(tài)對(duì)齊的學(xué)習(xí)

自動(dòng)駕駛汽車如何「眼觀六路」？

你可能聽說過車企正在使用的 LiDAR 傳感器或其他奇怪的相機(jī)。但它們是如何工作的，它們?nèi)绾斡^察這個(gè)世界，以及它們與我們相比究竟看到了什么不同？

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2109.01066

與特斯拉只使用攝像頭來了解世界不同，大多數(shù)自動(dòng)駕駛汽車廠商，比如 Waymo，使用的是普通攝像頭和 3D LiDAR 傳感器。

它們不會(huì)像普通相機(jī)那樣生成圖像，而是生成 3D 點(diǎn)云，利用 RGB 傳感信息，測(cè)量物體之間的距離，計(jì)算它們投射到物體的脈沖激光的傳播時(shí)間。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

盡管如此，我們?nèi)绾斡行У亟Y(jié)合這些信息并讓車輛理解它？車輛最終會(huì)看到什么？自動(dòng)駕駛是否足夠安全？Waymo 和谷歌的一篇新研究論文將會(huì)解答這些謎題。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ 0nJMnw1Ldks

短篇分析：https://www.louisbouchard.ai/ waymo-lidar/

Instant NeRF：基于多分辨率哈希編碼的即時(shí)神經(jīng)圖元

如何通過照片模擬世界的樣子？

使用 AI 模型，人們可以將拍攝的圖像變成高質(zhì)量的 3D 模型。這項(xiàng)具有挑戰(zhàn)性的任務(wù)，讓研究人員通過 2D 圖像，創(chuàng)建物體或人在三維世界中的樣子。

通過基于哈希編碼的神經(jīng)圖元（graphical primitives），英偉達(dá)實(shí)現(xiàn) 5 秒訓(xùn)練 NeRF，并獲得了更好的效果。在不到兩年的研究中，將 NeRF 的訓(xùn)練速度提高了 1000 多倍。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2201.05989

項(xiàng)目地址：https://github.com/ NVlabs / instant-ngp

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ UHQZBQOVAIU

短篇分析：https://www.louisbouchard.ai/ nvidia-photos-into-3d-scenes/

DALL?E 2：基于 CLIP 特征的文本生成圖像模型

去年，OpenAI 發(fā)布了文本-圖像生成模型 DALL?E?，F(xiàn)在，升級(jí)版 DALL?E 2 又來了。

DALL?E 2 不僅可以從文本生成逼真的圖像，其輸出的分辨率是前者的四倍！

不過，性能方面的提升好像不足以令 OpenAI 滿足，為此他們還讓 DALL?E 2 學(xué)會(huì)了一項(xiàng)新技能：圖像修復(fù)。

也就是說，你可以用 DALL?E 2 編輯圖像，或者添加任何想要的新元素，比如在背景中加上一只火烈鳥。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2204.06125

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ rdGVbPI42sA

短篇分析：https://www.louisbouchard.ai/ openais-new-model-dall-e-2-is-amazing/

MyStyle：個(gè)性化生成先驗(yàn)

谷歌和特拉維夫大學(xué)提出了一個(gè)非常強(qiáng)大的 DeepFake 技術(shù)。擁有了它，你幾乎無所不能。

只需給一個(gè)人拍上百張照片，就可以對(duì)其圖像進(jìn)行編碼，并修復(fù)、編輯或創(chuàng)建出任何想要的樣子。

這既令人驚奇又令人恐懼，尤其是當(dāng)你看到生成的結(jié)果時(shí)。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2203.17272

項(xiàng)目地址：https://mystyle-personalized-prior.github.io/

視頻講解：https://youtu.be/ BNWAEvFfFvQ

短篇分析：https://www.louisbouchard.ai/ mystyle/

OPT：開放預(yù)訓(xùn)練的 Transformer 語言模型

GPT-3 如此強(qiáng)大的原因，在于其架構(gòu)和大小。

它有 1750 億個(gè)參數(shù)，是人類大腦中神經(jīng)元數(shù)量的兩倍！如此巨大的神經(jīng)網(wǎng)絡(luò)使該模型幾乎學(xué)習(xí)了整個(gè)互聯(lián)網(wǎng)的內(nèi)容，了解我們?nèi)绾螘鴮憽⒔粨Q和理解文本。

就在人們驚嘆于 GPT-3 的強(qiáng)大功能時(shí)，Meta 向開源社區(qū)邁出了一大步。他們發(fā)布了一個(gè)同樣強(qiáng)大的模型，并且，該模型已經(jīng)完全開源了！

該模型不僅也有超過千億級(jí)別的參數(shù)，并且，與 GPT-3 相比，OPT-175B 更加開放及便于訪問。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2205.01068

項(xiàng)目地址：https://github.com/ facebookresearch / metaseq

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻鏈接：https://youtu.be/ Ejg0OunCi9U

短篇分析：https://www.louisbouchard.ai/ opt-meta/

BlobGAN：空間離散的場(chǎng)景表征

對(duì)于如何描述一個(gè)場(chǎng)景，Adobe 研究團(tuán)隊(duì)給出了一個(gè)新的方法：BlobGAN。

BlobGAN 使用「斑點(diǎn)」（blob）來描述場(chǎng)景中的對(duì)象。研究人員可以移動(dòng)這些斑點(diǎn)，將它們變大、變小，甚至可以刪除，這對(duì)圖像中斑點(diǎn)所代表的物體都會(huì)產(chǎn)生同樣的效果。

正如作者在他們的結(jié)果中分享的那樣，你可以通過復(fù)制斑點(diǎn)，在數(shù)據(jù)集中創(chuàng)建新的圖像。

現(xiàn)在，BlobGAN 的代碼已經(jīng)開源，感興趣的小伙伴，抓緊快上手試試吧！

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2205.02837

項(xiàng)目地址：https://github.com/ dave-epstein / blobgan

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ mnEzjpiA_4E

短篇分析：https://www.louisbouchard.ai/ blobgan/

Gato：通才智能體

DeepMind 構(gòu)建了一個(gè)單一的「通用」智能體 Gato?？梢酝?Atari 游戲、做字幕圖像、與人聊天、還能控制機(jī)械臂！

更令人震驚的是，它只訓(xùn)練一次并使用相同的權(quán)重，便能完成所有任務(wù)。

Gato 是一個(gè)多模態(tài)智能體。這意味著它既可以為圖像創(chuàng)建標(biāo)題，也能作為聊天機(jī)器人回答問題。

雖然 GPT-3 也能陪你聊天，但很明顯，Gato 可以做到更多。畢竟，能聊天的 AI 常有，能陪玩游戲的不常有。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2205.06175

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ xZKSWNv6Esc

短篇分析：https://www.louisbouchard.ai/ deepmind-gato/

Imagen：具有深度語言理解的文本到圖像的擴(kuò)散模型

如果你認(rèn)為 DALL?E 2 很優(yōu)秀，那么不妨看看這個(gè)來自 Google Brain 的新模型 ——Imagen—— 可以做些什么。

DALL?E 很神奇，但生成的圖像往往缺乏真實(shí)感，這就是谷歌團(tuán)隊(duì)研發(fā)的 Imagen 所要解決的問題。

根據(jù)比較文本到圖像模型的基準(zhǔn)，Imagen 在大型語言模型的文本嵌入對(duì)文本-圖像的合成方面成效顯著。生成的圖像既天馬行空，又真實(shí)可信。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2205.11487

項(xiàng)目地址：https://imagen.research.google/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ qhtYPhPWCsI

短篇分析：https://www.louisbouchard.ai/ google-brain-imagen/

DALL·E Mini

一組小扎的驚悚圖曾在 Twitter 上風(fēng)靡一陣。這組 San 值狂掉的作品，出自 DALL?E mini 之手。

作為 DALL?E 家族的「青春版」，DALL?E mini 是勝在免費(fèi)開源。代碼已留，下一個(gè)被魔改的人物又會(huì)是誰呢？

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

項(xiàng)目地址：https://github.com/ borisdayma / dalle-mini

在線體驗(yàn)：https://huggingface.co/ spaces / dalle-mini / dalle-mini

視頻講解：https://youtu.be/ K3bZXXjW788

短篇分析：https://www.louisbouchard.ai/ dalle-mini/

NLLB：不落下任何一種語言

Meta AI 發(fā)布的這款 NLLB-200 模型，模型命名理念來自「不落下任何一種語言」（No Language Left Behind），在 200 多種語言上實(shí)現(xiàn)了任意互譯。

研究的亮點(diǎn)在于：研究者讓大多數(shù)低資源語言訓(xùn)練提升多個(gè)數(shù)量級(jí)，同時(shí)實(shí)現(xiàn)了 200 + 語言翻譯的 SOTA 結(jié)果。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://research.facebook.com/ publications / no-language-left-behind/

項(xiàng)目地址：https://github.com/ facebookresearch / fairseq / tree / nllb

在線體驗(yàn)：https://nllb.metademolab.com/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ 2G4NeG17Eis

短篇分析：https://www.louisbouchard.ai/ no-language-left-behind/

Dual-Shutter 光學(xué)振動(dòng)傳感系統(tǒng)

聲音也能被看見？

這篇獲得 CVPR 2022 最佳論文榮譽(yù)獎(jiǎng)的研究，提出了一種新穎的 Dual-Shutter 方法，通過使用「慢速」相機(jī)（130FPS）同時(shí)檢測(cè)多個(gè)場(chǎng)景源的高速（高達(dá) 63kHz）表面振動(dòng)，并通過捕獲由音頻源引起的振動(dòng)來實(shí)現(xiàn)。

由此便可以實(shí)現(xiàn)樂器的分離、噪音的消除等各種需求。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://openaccess.thecvf.com/ content / CVPR2022 / papers / Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

項(xiàng)目地址：https://imaging.cs.cmu.edu/ vibration/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ n1M8ZVspJcs

短篇分析：https://www.louisbouchard.ai/ cvpr-2022-best-paper/

Make-A-Scene：基于場(chǎng)景且有人類先驗(yàn)的文本到圖像生成

Make-A-Scene 不僅僅是「另一個(gè) DALL?E」。

雖然 DALL?E 可以根據(jù)文本提示生成隨機(jī)圖像，這確實(shí)很酷，但同時(shí)也限制了用戶對(duì)生成結(jié)果的控制。

而 Meta 的目標(biāo)是推動(dòng)創(chuàng)意表達(dá)，將這種文本到圖像的趨勢(shì)與之前的草圖到圖像模型相結(jié)合，從而產(chǎn)生「Make-A-Scene」：文本和草圖條件圖像生成之間的奇妙融合。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2203.13131

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ K3bZXXjW788

短篇分析：https://www.louisbouchard.ai/ make-a-scene/

BANMo：從任意視頻中構(gòu)建目標(biāo) 3D 動(dòng)畫模型

基于 Meta 的這項(xiàng)研究，你只需給定捕獲可變形對(duì)象的任意視頻，比如上傳幾個(gè)小貓小狗的視頻，BANMo 便可通過將來自數(shù)千張圖像的 2D 線索整合到規(guī)范空間中，進(jìn)而重建一個(gè)可編輯的動(dòng)畫 3D 模型，且無需預(yù)定義形狀模板。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2112.12761

項(xiàng)目地址：https://github.com/ facebookresearch / banmo

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ jDTy-liFoCQ

短篇分析：https://www.louisbouchard.ai/ banmo/

用潛在擴(kuò)散模型進(jìn)行高分辨率圖像合成

今年大火的圖像生成模型 DALL?E、Imagen 以及強(qiáng)勢(shì)出圈的 Stable Diffusion，這些強(qiáng)大的圖像生成模型有什么共同點(diǎn)？除了高計(jì)算成本、大量訓(xùn)練時(shí)間之外，它們都基于相同的擴(kuò)散機(jī)制。

擴(kuò)散模型最近在大多數(shù)圖像任務(wù)中取得了 SOTA 結(jié)果，包括使用 DALL?E 的文本到圖像，還有許多其他與圖像生成相關(guān)的任務(wù)，如圖像修復(fù)、風(fēng)格轉(zhuǎn)換或圖像超分辨率。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2112.10752

項(xiàng)目地址：https://github.com/ CompVis / latent-diffusion

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ RGBNdD3Wn-g

短篇分析：https://www.louisbouchard.ai/ latent-diffusion-models/

PSG：基于場(chǎng)景的圖像生成模型

AI 可以幫你準(zhǔn)確識(shí)別圖像中的物體，但是理解物體與環(huán)境之間的關(guān)系則沒有那么輕松。

為此，來自南洋理工對(duì)研究人員提出了一種基于全景分割的全場(chǎng)景圖生成（panoptic scene graph generation，即 PSG）任務(wù)。

相比于傳統(tǒng)基于檢測(cè)框的場(chǎng)景圖生成，PSG 任務(wù)要求全面地輸出圖像中的所有關(guān)系（包括物體與物體間關(guān)系，物體與背景間關(guān)系，背景與背景間關(guān)系），并用準(zhǔn)確的分割塊來定位物體。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2207.11247

項(xiàng)目地址：https://psgdataset.org/

在線應(yīng)用：https://huggingface.co/ spaces / ECCV2022 / PSG

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ cSsE_H_0Cr8

短篇分析：https://www.louisbouchard.ai/ psg/

利用文本反轉(zhuǎn)實(shí)現(xiàn)文本到圖像的個(gè)性化生成

今年各大廠的圖像生成模型可謂是八仙過海各顯神通，但是如何讓模型生成特定風(fēng)格的圖像作品呢？

來自特拉維夫大學(xué)的學(xué)者和英偉達(dá)合作推出了一款個(gè)性化圖像生成模型，可以 DIY 你想要得到的圖像。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2208.01618

項(xiàng)目地址：https://textual-inversion.github.io/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ f3oXa7_SYek

短篇分析：https://www.louisbouchard.ai/ imageworthoneword/

用于通用視頻識(shí)別的語言圖像預(yù)訓(xùn)練模型

視覺文本模型的學(xué)習(xí)毫無疑問已經(jīng)取得了巨大成功，然而如何將這種新的語言圖像預(yù)訓(xùn)練方法擴(kuò)展到視頻領(lǐng)域仍然是一個(gè)懸而未決的問題。

來自微軟和中科院的學(xué)者提出了一種簡(jiǎn)單而有效的方法使預(yù)訓(xùn)練的語言圖像模型直接適應(yīng)視頻識(shí)別，而不是從頭開始預(yù)訓(xùn)練新模型。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2208.02816

項(xiàng)目地址：https://github.com/ microsoft / VideoX / tree / master / X-CLIP

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ seb4lmVPEe8

短篇分析：https://www.louisbouchard.ai/ general-video-recognition/

Make-A-Video：一鍵文本生成視頻模型

畫家在畫布上盡情作畫，如此清晰流暢的畫面，你能想到視頻的每一幀都是 AI 生成的嗎？

MetaAI 推出的 Make-A-Video，只需簡(jiǎn)單輸入幾個(gè)文字，便可在幾秒內(nèi)生成不同風(fēng)格的視頻，說成「視頻版 DALL?E」也不為過。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2209.14792

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ MWwESVyHWto

短篇分析：https://www.louisbouchard.ai/ make-a-video/

Whisper：大規(guī)模弱監(jiān)督語音識(shí)別模型

你有沒有想過有一個(gè)翻譯軟件可以快速翻譯視頻中的語音，甚至是那些你自己都聽不懂的語言？

OpenAI 開源的 Whisper 恰好就能做到這一點(diǎn)。

Whisper 在超過 68 萬小時(shí)的多語種數(shù)據(jù)上訓(xùn)練，能識(shí)別嘈雜背景下的多語種聲音并轉(zhuǎn)化為文字，此外還可勝任專業(yè)術(shù)語的翻譯。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2212.04356

項(xiàng)目地址：https://github.com/ openai / whisper

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ uFOkMme19Zs

短篇解析：https://www.louisbouchard.ai/ whisper/

DreamFusion：用 2D 圖像生成 3D 模型

文本能生成圖像、視頻，還有 3D 模型～

谷歌推出的 DreamFusion 通過使用預(yù)訓(xùn)練的 2D 文本到圖像擴(kuò)散模型可一鍵生成 3D 模型，在數(shù)十億圖像文本對(duì)上訓(xùn)練的擴(kuò)散模型推動(dòng)了文本到 3D 模型合成的最新突破。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2209.14988

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ epuU0VRIcjE

短篇解析：https://www.louisbouchard.ai/ dreamfusion/

Imagic：基于擴(kuò)散模型的真實(shí)圖像編輯方法

使用 DALL?E 等文本圖像生成模型，只需輸入一行文字便能得到想要的圖片，但 AI 生成的圖像有時(shí)候并不那么完美。

來自谷歌、以色列理工學(xué)院、魏茨曼科學(xué)研究所的研究者介紹了一種基于擴(kuò)散模型的真實(shí)圖像編輯方法 ——Imagic，只用文字就能實(shí)現(xiàn)真實(shí)照片的 PS。

例如，我們可以改變一個(gè)人的姿勢(shì)和構(gòu)圖同時(shí)保留其原始特征，或者我想讓一只站立的狗坐下，讓一只鳥展開翅膀。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2210.09276

項(xiàng)目地址：https://imagic-editing.github.io/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ gbpPQ5kVJhM

短篇分析：https://www.louisbouchard.ai/ imagic/

eDiffi：更高品質(zhì)的文本圖像合成模型

比 DALL?E 和 Stable Diffusion 更強(qiáng)的圖像合成模型來了！

這就是英偉達(dá)的 eDiffi，它可以更準(zhǔn)確地生成更高品質(zhì)的圖像，此外加入畫筆模具，可以為你的作品增加更多創(chuàng)造性和靈活性。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2211.01324

項(xiàng)目地址：https://deepimagination.cc/ eDiff-I/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ grwp-ht_ixo

短篇分析：https://www.louisbouchard.ai/ ediffi/

Infinite Nature：從單幅圖像中學(xué)習(xí)自然場(chǎng)景的無限視圖生成

你有沒有想過，隨手拍一張照片然后就像打開一扇門一樣飛進(jìn)圖片里呢？

來自谷歌和康奈爾大學(xué)的學(xué)者將這一想象變?yōu)榱爽F(xiàn)實(shí)，這就是 InfiniteNature-Zero，他可從單幅圖像中生成無限制的自然場(chǎng)景視圖。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2207.11148

項(xiàng)目地址：https://infinite-nature.github.io/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ FQzGhukV-l0

短篇分析：https://www.louisbouchard.ai/ infinitenature-zero

Galactica：用于科學(xué)的大語言模型

Meta 開發(fā)的 Galactica 是一種大型語言模型，其大小與 GPT-3 相當(dāng)，但它擅長(zhǎng)的領(lǐng)域是科學(xué)知識(shí)。

該模型可編寫政府白皮書、新聞評(píng)論、維基百科頁面和代碼，它還知道如何引用以及如何編寫方程式。這對(duì)人工智能和科學(xué)來說是一件大事。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2211.09085

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ 2GfxkCWWzLU

短篇分析：https://www.louisbouchard.ai/ galactica/

RAD-NeRF：基于音頻空間分解的實(shí)時(shí)人像合成模型

自從 DeepFake 和 NeRF 的出現(xiàn)，AI 換臉?biāo)坪跻呀?jīng)是司空見慣了，但有個(gè)問題，AI 換的臉有時(shí)會(huì)因?yàn)閷?duì)不上嘴型而露餡。

RAD-NeRF 的出現(xiàn)可以解決這一問題，它可以對(duì)視頻中所出現(xiàn)的說話者進(jìn)行實(shí)時(shí)的人像合成，此外還支持自定義頭像。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://arxiv.org/ abs / 2211.12368

項(xiàng)目地址：https://me.kiui.moe/ radnerf/

ChatGPT：為對(duì)話優(yōu)化的語言模型

2022 年度 AI 的重磅作品怎么能少了 ChatGPT，這個(gè)已經(jīng)火遍全網(wǎng)并已經(jīng)被網(wǎng)友開發(fā)出寫小黃文、敲代碼等各種應(yīng)用的萬能模型，如果你還不了解它，那就快來看看！

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ AsFgn8vU-tQ

短篇分析：https://www.louisbouchard.ai/ chatgpt/

可直接用于生產(chǎn)使用的視頻人臉 re-aging

雖然當(dāng)下計(jì)算機(jī)視覺模型可以對(duì)人臉的年齡進(jìn)行生成、風(fēng)格遷移等，但這也只是看起來炫酷，在實(shí)際應(yīng)用中卻幾乎零作用，現(xiàn)有的技術(shù)通常存在著面部特征丟失、分辨率低和在后續(xù)視頻幀中結(jié)果不穩(wěn)定的問題，往往需要人工二次編輯。

最近迪士尼發(fā)布了第一個(gè)可實(shí)用的、完全自動(dòng)化的、可用于生產(chǎn)使用的視頻圖像中 re-age 人臉的方法 FRAN（Face Re-Aging Network），正式宣告電影中靠化妝師改變演員年齡視覺效果的技術(shù)落幕。

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

論文鏈接：https://dl.acm.org/ doi / pdf / 10.1145/3550454.3555520

項(xiàng)目地址：https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

視頻講解：https://youtu.be/ WC03N0NFfwk

短篇分析：https://www.louisbouchard.ai/ disney-re-age/

參考資料：

https://www.louisbouchard.ai/2022-ai-recap/

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

32 篇論文硬核盤點(diǎn) 2022 年度 AI 熱點(diǎn)

LaMA：基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼修復(fù)

STIT：基于 GAN 的真實(shí)視頻人臉編輯

NeROIC：利用在線圖庫的神經(jīng)渲染

SpeechPainter：文本條件下的語音修復(fù)

GFP-GAN：利用生成性面部先驗(yàn)，實(shí)現(xiàn)真實(shí)世界的盲臉修復(fù)

4D-Net：多模態(tài)對(duì)齊的學(xué)習(xí)

Instant NeRF：基于多分辨率哈希編碼的即時(shí)神經(jīng)圖元

DALL?E 2：基于 CLIP 特征的文本生成圖像模型

MyStyle：個(gè)性化生成先驗(yàn)

OPT：開放預(yù)訓(xùn)練的 Transformer 語言模型

BlobGAN：空間離散的場(chǎng)景表征

Gato：通才智能體

Imagen：具有深度語言理解的文本到圖像的擴(kuò)散模型

DALL·E Mini

NLLB：不落下任何一種語言

Dual-Shutter 光學(xué)振動(dòng)傳感系統(tǒng)

Make-A-Scene：基于場(chǎng)景且有人類先驗(yàn)的文本到圖像生成

BANMo：從任意視頻中構(gòu)建目標(biāo) 3D 動(dòng)畫模型

用潛在擴(kuò)散模型進(jìn)行高分辨率圖像合成

PSG：基于場(chǎng)景的圖像生成模型

利用文本反轉(zhuǎn)實(shí)現(xiàn)文本到圖像的個(gè)性化生成

用于通用視頻識(shí)別的語言圖像預(yù)訓(xùn)練模型

Make-A-Video：一鍵文本生成視頻模型

Whisper：大規(guī)模弱監(jiān)督語音識(shí)別模型

DreamFusion：用 2D 圖像生成 3D 模型

Imagic：基于擴(kuò)散模型的真實(shí)圖像編輯方法

eDiffi：更高品質(zhì)的文本圖像合成模型

Infinite Nature：從單幅圖像中學(xué)習(xí)自然場(chǎng)景的無限視圖生成

Galactica：用于科學(xué)的大語言模型

RAD-NeRF：基于音頻空間分解的實(shí)時(shí)人像合成模型

ChatGPT：為對(duì)話優(yōu)化的語言模型

可直接用于生產(chǎn)使用的視頻人臉 re-aging

相關(guān)文章

GFP-GAN：利用生成性面部先驗(yàn)，實(shí)現(xiàn)真實(shí)世界的盲臉修復(fù)