首頁(yè) > 智能時(shí)代>人工智能

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

量子位 2024/10/11 15:03:32 責(zé)編：汪淼

評(píng)論：

梵高名作也能被 AI 逆向破解了？！

直接喂一張?jiān)瓐D，AI 就能化身梵高?本高一點(diǎn)點(diǎn)重繪整張圖畫(huà)（原圖可任意）。

梵高《羅納河上的星夜》

▲ 梵高《羅納河上的星夜》

仔細(xì)對(duì)照兩邊，AI 幾乎實(shí)現(xiàn)了 1:1 復(fù)刻，還為我們這些繪畫(huà)小白清晰展示了整幅圖的構(gòu)建過(guò)程。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

這項(xiàng)魔法來(lái)自華盛頓大學(xué)，項(xiàng)目名為 Inverse Painting，相關(guān)論文已入選 SIGGRAPH Asia 2024，其中兩位作者還是東北大學(xué)（Bowei Chen ）和上海科技大學(xué)（Yifan Wang）的校友。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

項(xiàng)目一經(jīng)發(fā)布后即在 Reddit 引起熱議，最高贊更是為藝術(shù)家群體操起了心（doge）。

藝術(shù)家可能會(huì)對(duì)此感到憤怒

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

不過(guò)也有人表示，這對(duì)于人們學(xué)習(xí)如何繪畫(huà)非常有幫助。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

甚至可以用來(lái)“破解”一些大師遺作，提取隱藏或失傳的技術(shù)。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

基于擴(kuò)散模型

從原圖 → 繪畫(huà)過(guò)程延時(shí)視頻，Inverse Painting 采用基于擴(kuò)散的逆繪畫(huà)方法。

通過(guò)學(xué)習(xí)真實(shí)藝術(shù)家的繪畫(huà)視頻，結(jié)合文本和區(qū)域理解來(lái)定義繪畫(huà)“指令”，并使用基于擴(kuò)散的渲染器更新畫(huà)布，從而生成類(lèi)似于人類(lèi)藝術(shù)家繪畫(huà)過(guò)程的視頻。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

進(jìn)一步拆解，這一過(guò)程主要包括以下步驟：

學(xué)習(xí)藝術(shù)家的繪畫(huà)過(guò)程。收集了 294 個(gè)丙烯酸風(fēng)景畫(huà)繪畫(huà)過(guò)程視頻（平均時(shí)長(zhǎng) 9 分鐘），并進(jìn)行視頻幀分割、裁剪和篩選等預(yù)處理操作，讓模型學(xué)習(xí)繪畫(huà)過(guò)程；
定義繪畫(huà)指令。基于對(duì)畫(huà)作不同元素（比如天空、樹(shù)木、人物等）以及元素相互關(guān)系的理解，模型會(huì)生成一組“繪畫(huà)指令”，告訴模型應(yīng)該先畫(huà)什么，后畫(huà)什么；
使用擴(kuò)散模型。用擴(kuò)散模型生成逼真圖像，并逐步在畫(huà)布上添加細(xì)節(jié)，就像藝術(shù)家繪畫(huà)時(shí)一樣；
文本和區(qū)域理解。模型還會(huì)生成文本指令和區(qū)域掩碼，前者告訴模型要繪制的內(nèi)容，后者用來(lái)指定內(nèi)容的確切位置；
逐步渲染。從一個(gè)空白畫(huà)布開(kāi)始，逐步生成完整繪畫(huà)過(guò)程；
時(shí)間控制。為了模擬真實(shí)世界中藝術(shù)家的繪畫(huà)速度，模型還會(huì)考慮每步之間的時(shí)間間隔；

這些步驟整體可歸為兩階段訓(xùn)練 + 測(cè)試，如下所示：

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

第一階段：指令生成（Instruction Generation）

這個(gè)階段主要生成兩個(gè)關(guān)鍵指令集，文本指令生成器（Text Instruction Generator）和區(qū)域掩碼生成器（Mask Instruction Generator）。

前者通過(guò)比較目標(biāo)畫(huà)作和當(dāng)前畫(huà)布的狀態(tài)，生成一個(gè)簡(jiǎn)短的文本指令，比如“畫(huà)天空”或“加花朵”，以此決定下一步應(yīng)該添加哪些元素。

后者是一個(gè)二進(jìn)制圖像，指明了畫(huà)布上應(yīng)該更新哪些部分。

兩者一結(jié)合，確保模型只在畫(huà)布上合適的區(qū)域進(jìn)行繪制。

生成的文本指令

▲ 生成的文本指令

第二階段：畫(huà)布渲染（Canvas Rendering）

接下來(lái)使用第一階段生成的指令來(lái)更新畫(huà)布。

利用文本指令和區(qū)域掩碼，以及當(dāng)前畫(huà)布的圖像和目標(biāo)畫(huà)作，一個(gè)基于擴(kuò)散的渲染器被用來(lái)更新畫(huà)布。

這個(gè)渲染器采用了一種叫做“去噪擴(kuò)散概率模型”的技術(shù)，它逐步從噪聲圖像中去除噪音，以生成連續(xù)的圖像幀。

總之，渲染器在更新畫(huà)布時(shí)會(huì)考慮多種條件信號(hào)，包括文本指令、區(qū)域掩碼、時(shí)間間隔，以及目標(biāo)畫(huà)作和當(dāng)前畫(huà)作的特征。

這些條件信號(hào)幫助渲染器更準(zhǔn)確地模擬人類(lèi)藝術(shù)家的繪畫(huà)風(fēng)格和過(guò)程。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

測(cè)試（Test-Time Generation）

在測(cè)試階段，模型使用訓(xùn)練好的管道從頭開(kāi)始生成一幅畫(huà)作。

這里主要有兩個(gè)關(guān)鍵：

自回歸過(guò)程。每一步都依賴(lài)于前一步生成的結(jié)果，以此生成一個(gè)連貫的繪畫(huà)過(guò)程；
固定時(shí)間間隔。在每一步之間采用固定時(shí)間來(lái)更新畫(huà)布，模擬真實(shí)繪畫(huà)過(guò)程中的時(shí)間流逝；

最終，與三個(gè)基線方法（Timecraft、Paint Transformer、Stable Video Diffusion）相比，其生成結(jié)果明顯更優(yōu)。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

同時(shí)，相關(guān)變體也取得了 SOTA 結(jié)果。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

其中兩位作者為華人

簡(jiǎn)單介紹下項(xiàng)目作者，一共 5 位，其中兩位是華人。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

Bowei Chen （陳柏維），本科就讀于國(guó)內(nèi)東北大學(xué)軟件工程專(zhuān)業(yè)（2016 年入學(xué)），后分別在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所和華盛頓大學(xué)攻讀碩博。

研究興趣為計(jì)算機(jī)視覺(jué)和圖形學(xué)的交叉點(diǎn)，重點(diǎn)是圖像和視頻生成。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

Yifan Wang，本科就讀于上?？萍即髮W(xué)計(jì)算機(jī)專(zhuān)業(yè)，今年剛獲得華盛頓大學(xué) CS 博士學(xué)位。

個(gè)人主頁(yè)顯示了多段工作經(jīng)歷（含字節(jié)、谷歌、Adobe 等），目前是 Meta Reality Labs Research 的一名研究科學(xué)家。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

實(shí)際上，這個(gè)團(tuán)隊(duì)進(jìn)行的 AI 逆向繪畫(huà)之前也有，網(wǎng)友們還提到了 Paints Undo 這個(gè)項(xiàng)目。

當(dāng)時(shí)主要應(yīng)用于動(dòng)漫領(lǐng)域，短短 3 個(gè)月已在 GitHub 攬星 3.3K。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

對(duì)于這事兒，人們一直褒貶不一，最大爭(zhēng)議在于人們擔(dān)心有人會(huì)利用 AI 謊稱(chēng)作者。

畢竟通過(guò)講解藝術(shù)思路是作者證明作品原創(chuàng)性的手段之一。

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

甚至對(duì)于它能教人們學(xué)繪畫(huà)這事兒，也有網(wǎng)友以自身經(jīng)歷出來(lái)反駁：

目前不太符合真實(shí)繪畫(huà)過(guò)程

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

所以，有了解繪畫(huà)的童鞋來(lái)說(shuō)說(shuō)看嗎？

參考鏈接：

[1]https://inversepainting.github.io/
[2]https://www.reddit.com/r/singularity/comments/1fybddi/inverse_painting_can_generate_timelapse_videos_of/

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：一水，原標(biāo)題《AI 逆向繪畫(huà)火了！一鍵重繪梵高《星空》，來(lái)自華盛頓大學(xué)》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)

基于擴(kuò)散模型

第一階段：指令生成（Instruction Generation）

第二階段：畫(huà)布渲染（Canvas Rendering）

測(cè)試（Test-Time Generation）

其中兩位作者為華人

相關(guān)文章

AI 逆向繪畫(huà)：一鍵重繪梵高《羅納河上的星夜》，來(lái)自華盛頓大學(xué)