首頁 > 科學探索>科技前沿

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

新智元 2023/5/28 13:57:05 責編：夢澤

評論：

DragGAN 非官方實現(xiàn)來了！完美復刻拖拽秒 P 圖功能，可以直接上手嘗試。

還記得前幾天發(fā)布的 DragGAN 嗎？

沒錯，就是那個「輕輕點兩下」1 秒修圖的工具。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

拍的照片表情不好？修！臉型不夠瘦？修！臉沖鏡頭的角度不對？修！

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

搞不好，「讓大象轉(zhuǎn)個身」這個遠古 PS 段子，可能就要成真了

這個 AI 修圖工具演示視頻一經(jīng)發(fā)布，瞬間在國內(nèi)外火得一塌糊涂。

許多網(wǎng)友紛紛直呼，「PS 不存在了」。

還沒幾天，DragGAN 非官方實現(xiàn)竟能上手試用了。這一功能已經(jīng)被集成到 InternGPT 中，界面長這樣 ↓

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

體驗地址：https://igpt.opengvlab.com/

沒想到，演示入口一開放，直接被擠爆。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

官方演示

從官方放出的演示視頻來看，再現(xiàn)的 DragGAN 效果絕了。

咧嘴笑

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

先是怎么把一個沒笑的人 p 笑。只要選中兩個嘴角，直接 Drag 就好了。

可以看到，最終生成的結(jié)果毫無違和感。因為面部肌肉也在一起變化，不是單純的咧嘴。

合上嘴

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

臉部編輯

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

這個瘦臉功能大家就太熟悉了，選中兩個臉蛋往里擠，輸出還是非常自然的。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

男性瘦臉。不過這個有點瘦過了，輸出結(jié)果一眼假，下巴太尖了。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

這個必須強推！植發(fā)！多少禿頭人士的福音。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

不過從輸出結(jié)果看，就算選中額頭那里，也是全部地方的毛發(fā)等比例增長，最后的結(jié)果有點像美猴王。

轉(zhuǎn)臉

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

臉部轉(zhuǎn)動也是一個很實用的功能，補齊的部分非常自然。

其它功能

除了小范圍的修圖，InternGPT 本身還有很多其它可以進行的亮眼操作。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

移除遮蓋的對象

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

單擊想要在圖片中進行操作的部分，在 prompt 中輸入「移除」就可以了。

圖像生成

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

這個功能比較有意思，先上傳一張圖片，輸入 prompt 讓 DragGAN 分割，然后再輸入一個 prompt 生成想要的圖片。

露出黑腳了？（不是）

視頻高光解說

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

用 prompt 還可以一鍵剪輯視頻。

交互式視覺問答

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

甚至識別完圖片上的信息還能聯(lián)網(wǎng)直接查詢。

交互式圖像生成

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

隨手的涂鴉都能一鍵變成美圖。

反正看完這些功能小編是真震驚了。所有功能就突出兩個特點：「傻瓜式操作，且究極好用」。

這誰能不愛？

技術(shù)實現(xiàn)

看了這么多酷炫的功能，那么這個 InternGPT 到底是什么？

InternGPT（簡稱 iGPT）/InternChat（簡稱 iChat）是一種基于指向語言驅(qū)動的視覺交互系統(tǒng)，用戶可以通過點擊、拖動和繪制與 ChatGPT 進行互動。

與依賴純語言的現(xiàn)有交互系統(tǒng)不同，通過整合指向指令，iGPT 顯著提高了用戶與聊天機器人之間的溝通效率，以及聊天機器人在視覺為中心任務(wù)中的準確性，尤其在復雜的視覺場景中更是如此。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

論文地址：https://arxiv.org/ pdf / 2305.05662.pdf

下圖就是 InternGPT 的整體架構(gòu)。

我們可以看到，這個 GPT 既可以處理圖像、視頻，也可以處理語音、文字。

對于圖像或視頻輸入，InternGPT 就會用 SAM（圖像分割模型）、OCR（圖像識別模型）等等進行處理。

在識別出地理位置、物品或者線條之后，還有一整個工具箱進行進一步處理，其中都是我們耳熟能詳?shù)墓ぞ摺?/p>

比如 BLIP（音頻）、Stable Diffusion（圖像）、Pix2Pix（圖像翻譯）等等。

同樣地，對于文字或者語音輸入，InternGPT 就會調(diào)用 GPT-4、LLaMA 等模型或工具進行處理，后續(xù)同樣有一整個工具箱。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

InternGPT 的整體架構(gòu)

使用提示

而在使用過程中，整個流程也是非常方便的。

用戶在圖片上傳成功后，可以發(fā)送如下消息與 iGPT 進行多模態(tài)相關(guān)的對話：

"what is it in the image?" or "what is the background color of image?".

同樣，用戶也可以交互式地操作、編輯或者生成圖片，具體如下：

?點擊圖片上的任意位置，然后按下 Pick 按鈕，預覽分割區(qū)域。也可以按下 OCR 按鈕，識別具體位置處存在的所有單詞；

?要在圖像中刪除掩碼區(qū)域，可以發(fā)送如下消息：

“remove the masked region”

?要在圖像中替換掩碼的物體為其他物體，可以發(fā)送如下消息：

“replace the masked region with {your prompt}”

?想生成新圖像，可以發(fā)送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

?想通過涂鴉創(chuàng)建新圖像，按下 Whiteboard 并在白板上繪制。繪制完成后，需要按下保存按鈕并發(fā)送如下消息：

“generate a new image based on this scribble describing {your prompt}”

網(wǎng)友評論

那個令人震驚的 DragGAN 現(xiàn)在有一個非官方的版本。正式版本將在 6 月發(fā)布，這只是未來的預覽。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

DragGAN 已經(jīng)集成到 InternGPT 了，這么快就出來了，修圖神器。

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

參考資料：

https://igpt.opengvlab.com/

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN

官方演示

其它功能

技術(shù)實現(xiàn)

使用提示

網(wǎng)友評論

相關(guān)文章

大象 P 轉(zhuǎn)身開箱即用，港大、南大、清華等搶先開源「復刻」版 DragGAN