【新智元導(dǎo)讀】AI 無法打敗 AI,不是沒有道理。近來,上千萬人圍觀的嬰兒死亡照片,AI 檢測(cè)工具竟無法給出一致答案。
AI 圖片檢測(cè)器又被沖了!
最近,外網(wǎng)爆出大量中東地區(qū)沖突的照片,向世人展示了生命在這種極端條件下是何等的脆弱和無助。
其中,一張「燒焦嬰兒」的照片,由于太過于殘忍,讓人難以置信。
于是,有人把照片放到了 AI 圖片檢測(cè)器中,來檢測(cè)這些照片是否為 AI 生成。
果然,這張照片被 AI 檢測(cè)器 ——Optic,認(rèn)定為「AI 生成」。
而在 4chan 上,甚至還出現(xiàn)了「原圖」,原本尸體的位置其實(shí)是一只狗狗。
于是網(wǎng)友憤怒地去發(fā)布者推文下方留言,攻擊他利用 AI 生成的照片來散播虛假的末日恐慌。
這條認(rèn)為照片是由 AI 生成的推文,2 天不到的時(shí)間已經(jīng)有 2100 萬的閱讀。
但是很快網(wǎng)友們發(fā)現(xiàn),他們把照片放到了同樣的 AI 檢測(cè)器上,檢測(cè)結(jié)果幾乎是隨機(jī)的,既有 AI,也有人類。
有人發(fā)現(xiàn),只要把同一張圖片裁剪一下,或者背景色變成黑白,這個(gè)檢測(cè)器就會(huì)認(rèn)為圖片是由人類拍攝的。
甚至有時(shí)候檢測(cè)器「拋硬幣」的時(shí)候,硬幣還會(huì)立起來...
那到底這張圖是不是由 AI 生成的呢?
最后,AI 檢測(cè)器官方也針對(duì)這個(gè)事件發(fā)推,認(rèn)為他們的沒有辦法確定圖片是否由 AI 生成,希望大家理性討論。
AI 圖片檢測(cè)器,到底有多不靠譜?
UC Berkeley 教授、世界頂尖的數(shù)字圖像處理專家之一 Hany Farid 表示,這張圖像沒有任何跡象表明它是由 AI 生成的。
「AI 圖像生成器最大的問題之一是高度結(jié)構(gòu)化的形狀和直線,」Farid 說?!溉绻憧吹阶劳群吐萁z,一切看起來都很完美,那么圖片就幾乎不可能是由 AI 生成的?!?/p>
比如這張著名的「海綿寶寶制造了 911」的圖片,窗外的雙子塔線條都不直,飛機(jī)上的儀表盤都相互扭曲到一起了,這看起來就是「A 里 A 氣的」。
「我們?cè)谀菑堈掌心軌蚩吹轿矬w的結(jié)構(gòu)很準(zhǔn)確、陰影也很準(zhǔn)確、沒有偽影 —— 這讓我相信這張照片應(yīng)該完全是真實(shí)的」法里德說。
Farid 還通過他自己的其他 AI 圖像檢測(cè)器識(shí)別了這幅圖,另外四種 AI 圖像檢測(cè)工具也都認(rèn)為圖像不是 AI 生成的。
Farid 說,「AI 檢測(cè)器是一個(gè)工具,但它只是工具包的一部分。用戶需要對(duì)整個(gè)圖像進(jìn)行進(jìn)行一系列的測(cè)試,不可能只按一個(gè)按鈕就得到答案?!?/p>
而 AI 檢測(cè)工具 Optic 確實(shí)也沒有給出自己的檢測(cè)技術(shù)的具體細(xì)節(jié)。
Optic 網(wǎng)站也聲明,「AI 檢測(cè)器可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果」。
AI 圖像檢測(cè)技術(shù)
Farid 教授在去年曾經(jīng)撰寫過一篇論文,介紹了如何判斷 AI 生圖工具圖像的一致性。
通過判斷圖像上的一致性,可以幫助判斷出圖像是否由 AI 生成。
論文鏈接:https://arxiv.org/ abs / 2206.14617?ref=404media.co
教授首先概述三種相關(guān)的基于物理的分析方式,每種分析都利用了圖像形成過程固有的相同的基礎(chǔ)透視幾何原理。
消失點(diǎn)
平行后退線匯聚于一個(gè)消失點(diǎn)。
瓷磚之間的線圖 1 (a) 是平行的。成像時(shí),這些線全部匯聚在一個(gè)消失點(diǎn)。如果場(chǎng)景中的平行線在深度上遠(yuǎn)離鏡頭,那么就會(huì)存在消失點(diǎn),盡管它可能落在圖像之外。
如果場(chǎng)景中的平行線在深度上不后退,也就是說,如果它們完全平行于鏡頭傳感器(在任何距離),則平行線將被成像為平行線,出于實(shí)際目的,可以考慮消失點(diǎn)處于無窮遠(yuǎn)。這種幾何學(xué)源于透視投影的基礎(chǔ)知識(shí)。
在透視投影下,場(chǎng)景中的點(diǎn) (X, Y, Z) 被成像到點(diǎn) (f X / Z, f Y /Z),其中 f 是鏡頭焦距。
由于圖像中點(diǎn)的位置與距離 Z 成反比,因此投影點(diǎn)會(huì)作為距離的函數(shù)進(jìn)行壓縮,從而導(dǎo)致圖像中的線會(huì)聚;
2. 平行平面上的平行線會(huì)聚到同一個(gè)消失點(diǎn)
遠(yuǎn)處的盒子在圖 1 (b) 與地板上的瓷磚對(duì)齊,使得盒子的邊緣與瓷磚之間的線平行。因?yàn)槠叫衅矫嫔系钠叫芯€共享一個(gè)消失點(diǎn),所以盒子側(cè)面和瓷磚地板的消失點(diǎn)是相同的;
3. 平面上所有直線的消失點(diǎn)都位于消失線上。
許多組平行線,每組平行線會(huì)聚到不同的消失點(diǎn),如圖 1 (c) 所示。如果平行線組跨越場(chǎng)景中的同一平面,則它們的消失點(diǎn)將位于消失線上。消失線的方向由鏡頭相對(duì)于平行線所跨越的平面的旋轉(zhuǎn)來確定
陰影
有點(diǎn)令人驚訝的是,消失點(diǎn)背后的相同幾何形狀也適用于投射陰影。
上圖顯示的是連接盒子上的點(diǎn)及其在投射陰影上的對(duì)應(yīng)點(diǎn)的三條光線。擴(kuò)展圖像邊界后發(fā)現(xiàn),這三條光線相交于一個(gè)點(diǎn),該點(diǎn)對(duì)應(yīng)的是照亮場(chǎng)景的光源的投影。
無論光源在附近(臺(tái)燈)還是在遠(yuǎn)處(太陽),這種與陰影、物體和光相關(guān)的幾何約束都成立,并且無論陰影投射到的表面的位置和方向如何,該幾何約束都成立。
當(dāng)然,該分析假設(shè)場(chǎng)景由單個(gè)主光源照明,從每個(gè)對(duì)象僅存在單個(gè)投射陰影可以明顯看出這一點(diǎn)。
在上面的示例中,照亮場(chǎng)景的光源位于鏡頭前面,因此光源的投影位于圖像平面的上半部分。
然而,如果光線位于鏡頭后面,則光源的投影將位于圖像平面的下半部分。由于這種反轉(zhuǎn),對(duì)象約束的陰影也必須反轉(zhuǎn)。
因此,圖像的投射陰影分析必須考慮三種可能性:
(1) 光線位于鏡頭前面,光源的投影位于圖像平面的上半部分,約束錨定在投射陰影上并包圍對(duì)象;
(2) 光線在鏡頭后面,光源的投影在圖像平面的下半部分,約束錨定在物體上并包圍投射的陰影;
(3) 光線位于鏡頭中心的正上方或正下方,光源的投影位于無窮遠(yuǎn),約束將在無窮遠(yuǎn)相交。如果這些情況中的任何一種導(dǎo)致所有約束的共同交集,則投射陰影在物理上是合理的。
反射
下圖 2 所示的場(chǎng)景是三個(gè)盒子反射在平面鏡中。
這個(gè)圖的下半部分顯示了真實(shí)盒子和虛擬盒子之間的幾何關(guān)系。
橙色線代表鏡子,位于兩組盒子之間的中點(diǎn)。黃線連接真實(shí)和虛擬盒子上的對(duì)應(yīng)點(diǎn)。這些線彼此平行并垂直于鏡子。
現(xiàn)在考慮一下這些平行線疊加在場(chǎng)景上時(shí)如何出現(xiàn)。從鏡子平面觀察時(shí)平行的線不再平行。相反,由于透視投影,這些平行線會(huì)聚到一個(gè)點(diǎn),就像世界中的平行線會(huì)聚到一個(gè)消失點(diǎn)一樣。
由于連接場(chǎng)景中對(duì)應(yīng)點(diǎn)及其反射的線始終是平行的,因此這些線必須在圖像中具有共同的交點(diǎn)才能在物理上合理。
實(shí)例分析
上圖 3 顯示了 AI 合成圖像的三個(gè)代表性示例,并對(duì)地板和柜臺(tái)頂部的幾何透視一致性進(jìn)行了分析。
每張圖像(在幾個(gè)像素內(nèi))準(zhǔn)確地捕捉了瓷磚地板的透視幾何形狀,作為一致的消失點(diǎn)(以藍(lán)色呈現(xiàn))的證據(jù)。然而,平行臺(tái)面(以青色呈現(xiàn))的消失點(diǎn)在幾何上與臺(tái)面的消失點(diǎn)不一致。
相應(yīng)的對(duì)齊圖塊。即使臺(tái)面與瓷磚不平行,青色消失點(diǎn)也應(yīng)位于由瓷磚地板消失點(diǎn)定義的消失線(以紅色呈現(xiàn))上。請(qǐng)注意,對(duì)于圖 3 右上角的圖像,瓷磚地板上的水平線幾乎是平行的,因此相應(yīng)的消失點(diǎn)位于無窮遠(yuǎn),因此不會(huì)相交。
雖然這些圖像中消失點(diǎn)局部事一致的,但并不是全局一致的。在 25 張合成的廚房圖像中,每張都發(fā)現(xiàn)了相同的模式。
上圖是用提示詞生成的方塊圖片,在陰影處就明顯地出現(xiàn)了不一致性。
上圖 8 所示是將幾何分析應(yīng)用于由 AI 生成的包含了看上去相當(dāng)準(zhǔn)確的反射的圖像結(jié)果。
盡管這些反射在視覺上是合理的,但在幾何上并不一致。
與前幾節(jié)中的投射陰影和幾何結(jié)構(gòu)不同,DALL?E-2 很難合成合理的反射,大概是因?yàn)榇祟惙瓷湓谄溆?xùn)練圖像數(shù)據(jù)集中不太常見。
基于這些對(duì)于 AI 生成圖片局限性的了解,通過對(duì)于圖片一致性的檢測(cè),能非常有助于判斷圖片是否由 AI 合成。
圖像識(shí)別難,AI 打敗 AI
AI 圖像生成器,正不斷進(jìn)化。
上半年,Midjourney 爆火,能夠生成足夠逼真的圖片,卻愚弄了很多人。
86 歲教皇頭頂白色小瓜帽、一身喇叭口的白色羽絨服,金屬制的十字架項(xiàng)鏈外露,外加一本正經(jīng)的表情。
當(dāng)時(shí),這張照片一經(jīng)發(fā)布,在社交媒體上騙過了所有人,被許多網(wǎng)友瘋狂轉(zhuǎn)發(fā),甚至有人直呼教皇太潮了。
在大家都信以為真時(shí),突然有人點(diǎn)出這是 AI 生成的,許多人瞬間傻眼了。
這僅是其中的一個(gè)栗子,還有馬斯克新女友 GM 的首席執(zhí)行官 Barra 等各種虛假流傳的圖片,已經(jīng)達(dá)完全到以假亂真的程度。
這一事件,直接引發(fā)了馬斯克、蘋果聯(lián)合創(chuàng)始人 Stephen Wozniak 等科技領(lǐng)導(dǎo)人呼吁暫停 AI 的研發(fā)。
雖然 AI 生成有趣、便利,但它給整個(gè)行業(yè)帶來了風(fēng)險(xiǎn)。
一不小,就會(huì)被別有用心的人用其傳播虛假信息、侵犯知識(shí)產(chǎn)權(quán),或利用生成「果照」等等。
接下來幾個(gè)月,Midjourney 將會(huì)發(fā)布最新的 V6 版本,目前 V5 版本已經(jīng)在圖片生成的真實(shí)度上做的非常完善。
而其他 AI 圖像生成器也在快速迭代。前段時(shí)間,OpenAI 剛剛發(fā)布了 DALL?E 3,與此同時(shí)微軟必應(yīng)圖像生成也用上了 DALL?E 3。
當(dāng)然了,研究人員也在努力構(gòu)建可以辨別圖像的工具,關(guān)鍵是如何追趕上 AI 圖像生成器不斷換代的步伐?
AI 檢測(cè)工具競(jìng)爭(zhēng)賽
現(xiàn)在,已經(jīng)有十幾家公司提供工具來識(shí)別圖片是否是由 AI 生成的,它們的名字包括 Sensity AI(深度偽造檢測(cè))、Fictitious.AI(抄襲檢測(cè))、Originality.AI 等等。
人工智能信任與安全公司 Optic 推出了一個(gè)「AI or Not」的網(wǎng)站。
在這個(gè)網(wǎng)站上,你可以上傳照片或粘貼圖片網(wǎng)址,網(wǎng)站會(huì)自動(dòng)判斷,照片是否是由 AI 生成的。上傳的圖片數(shù)量沒有限制。
另外,你也可以在 Optic 的推特賬戶 @optic_xyz 上發(fā)布或轉(zhuǎn)發(fā)一張圖片,或者加上#aiornot,便會(huì)得到一條回復(fù),包括圖片的置信度百分比。
這家公司的首席執(zhí)行官 Andrey Doronichev 表示,Optic 的 AI 工具可以檢查每張圖像中人眼不可見的偽影,例如圖像中亮度和顏色的變化。
讓人驚喜的是,該工具的準(zhǔn)確率為 95%。
但是隨著 Midjourney 等 AI 圖像生成工具的升級(jí)迭代,「AI or Not」的準(zhǔn)確率下降到了 88.9%。
比如,教皇這張圖片,AI 認(rèn)為 87% 的概率是由人類做的。
其實(shí)有網(wǎng)友表示,仔細(xì)去看這張圖,就會(huì)發(fā)現(xiàn)有人工智能生成的明顯跡象,包括幾個(gè)明顯模糊的細(xì)節(jié)區(qū)域:
- 看似不完整的手正試圖抓住一個(gè)不太像咖啡杯的東西,旁邊還有污跡
- 教皇佩戴的十字架也不是直角形狀,上面還刻著一個(gè)像是用黏土雕刻而且坐著的耶穌
- 眼鏡與臉部的陰影不一致
這幾點(diǎn)都表明這是由人工智能生成的。它僅了解現(xiàn)實(shí)的表面,但不了解支配物理對(duì)象是如何相互作用的基本規(guī)則。
除了 Optic 家的工具,為內(nèi)容添加標(biāo)簽的人工智能公司 Hive 近來,也更新了自家的免費(fèi) AI 生成的內(nèi)容檢測(cè)器。
這個(gè) AI 工具在 DALL-E、Stable Diffusion、Midjourney 的數(shù)百萬張圖像上進(jìn)行了訓(xùn)練。
Hive 預(yù)計(jì),它能準(zhǔn)確檢測(cè)到大約 95% 的 AI 生成的圖像,尤其在網(wǎng)上瘋傳的共享圖像,往往比其他圖像識(shí)別效果更好。
CEO Kevin Guo 稱,當(dāng)人們分享人工智能圖像時(shí),他們會(huì)選擇最逼真的假圖,所以人們很辨別什么是真的。
左圖是 AI 生成的圖像,可以從兩個(gè)手指和奇怪的擊掌辨別,而在普通 iStock 照片中真實(shí)的樣子如右圖。
與 Optic 一樣,Hive 在檢測(cè)必應(yīng) Image Creator 的圖像時(shí),也失敗了。
不過,這些檢測(cè)工具并非止步不前,隨著 AI 圖像整成模型的迭代,它們也會(huì)更新升級(jí)。
其實(shí),AI 圖像辨別不能僅僅依靠行業(yè)中的檢測(cè)工具完成,更應(yīng)該在模型訓(xùn)練時(shí),設(shè)好護(hù)欄。
許多人工智能圖像生成器,也被限定了一些內(nèi)容能否被生成的「黑名單」。
比如,必應(yīng) Image Creator 會(huì)標(biāo)記和阻止要求其創(chuàng)建知名公眾人物圖像的用戶提示。
Midjourney 有「human moderators」,并正在推出一種用算法來調(diào)節(jié)用戶請(qǐng)求的方法。
還有 DALL?E 3 技術(shù)報(bào)告中介紹道,當(dāng)你讓 ChatGPT 生成一些「果圖」、或者涉及黑白人等圖片時(shí),輸入的 prompt 直接被改寫。
給 AI 加水印,大廠在做了
此外,數(shù)字水印也是目前增強(qiáng)生成式 AI 安全的重要手段之一,微軟、谷歌等科技巨頭已經(jīng)在產(chǎn)品中使用。
微軟曾在 9 月 Surface 大會(huì)上,介紹了 DALL?E 3 加持下的必應(yīng)生成圖像的能力。
與此同時(shí),為了確保圖像不被濫用,微軟團(tuán)隊(duì)使用加密方法為為每一張圖像生成不可見的水印,包括創(chuàng)建時(shí)間和日期。
任何人可以點(diǎn)開每張圖片,輕易識(shí)別出是否是 AI 生成的。
Meta 還開源了 Stable Signature,可將數(shù)字水印直接嵌入到 AI 自動(dòng)生成的圖片中。
論文地址:https://arxiv.org/ pdf / 2303.15435.pdf
值得一提的是,Stable Signature 生成的數(shù)字水印不受裁剪、壓縮、改變顏色等破壞性操作影響,能追溯到圖片的初始來源。
它可應(yīng)用于擴(kuò)散、GAN 等模型,比如 Stable Diffusion。
還有谷歌在 Google Cloud Next 上,也發(fā)布了為 AI 生成的圖像打上水印并進(jìn)行檢測(cè)和識(shí)別的 SynthID。
SynthID 使用兩個(gè)深度學(xué)習(xí)模型,分別用于水印和識(shí)別。它們可以在一組不同的圖像上一起訓(xùn)練。
組合模型針對(duì)一系列目標(biāo)進(jìn)行了優(yōu)化,包括正確識(shí)別帶水印的內(nèi)容,并通過直觀地將水印與原始內(nèi)容對(duì)齊來提高水印的隱蔽性。
SynthID 生成的數(shù)字水印是直接嵌入到圖像的像素中的,人眼無法察覺。但 SynthID 可以檢測(cè)并識(shí)別它們。
加州大學(xué)河濱分校電氣和計(jì)算機(jī)工程教授 Amit Roy-Chowdhury 表示,仔細(xì)觀察圖像背景,我們可以用自己的眼睛更好檢測(cè)假圖像。
不過,在 AI 模型加速迭代當(dāng)下,想要有「火眼金睛」太難了。
參考資料:
https://www.404media.co/ai-images-detectors-are-being-used-to-discredit-the-real-horrors-of-war/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。