設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

千萬人圍觀「燒焦嬰兒」圖片!伯克利教授辟謠:AI 圖片檢測器無用

新智元 2023/10/15 15:07:31 責編:遠洋

【新智元導(dǎo)讀】AI 無法打敗 AI,不是沒有道理。近來,上千萬人圍觀的嬰兒死亡照片,AI 檢測工具竟無法給出一致答案。

AI 圖片檢測器又被沖了!

最近,外網(wǎng)爆出大量中東地區(qū)沖突的照片,向世人展示了生命在這種極端條件下是何等的脆弱和無助。

其中,一張「燒焦嬰兒」的照片,由于太過于殘忍,讓人難以置信。

于是,有人把照片放到了 AI 圖片檢測器中,來檢測這些照片是否為 AI 生成。

果然,這張照片被 AI 檢測器 ——Optic,認定為「AI 生成」。

而在 4chan 上,甚至還出現(xiàn)了「原圖」,原本尸體的位置其實是一只狗狗。

于是網(wǎng)友憤怒地去發(fā)布者推文下方留言,攻擊他利用 AI 生成的照片來散播虛假的末日恐慌。

這條認為照片是由 AI 生成的推文,2 天不到的時間已經(jīng)有 2100 萬的閱讀。

但是很快網(wǎng)友們發(fā)現(xiàn),他們把照片放到了同樣的 AI 檢測器上,檢測結(jié)果幾乎是隨機的,既有 AI,也有人類。

有人發(fā)現(xiàn),只要把同一張圖片裁剪一下,或者背景色變成黑白,這個檢測器就會認為圖片是由人類拍攝的。

甚至有時候檢測器「拋硬幣」的時候,硬幣還會立起來...

那到底這張圖是不是由 AI 生成的呢?

最后,AI 檢測器官方也針對這個事件發(fā)推,認為他們的沒有辦法確定圖片是否由 AI 生成,希望大家理性討論。

AI 圖片檢測器,到底有多不靠譜?

UC Berkeley 教授、世界頂尖的數(shù)字圖像處理專家之一 Hany Farid 表示,這張圖像沒有任何跡象表明它是由 AI 生成的。

AI 圖像生成器最大的問題之一是高度結(jié)構(gòu)化的形狀和直線,」Farid 說?!溉绻憧吹阶劳群吐萁z,一切看起來都很完美,那么圖片就幾乎不可能是由 AI 生成的?!?/p>

比如這張著名的「海綿寶寶制造了 911」的圖片,窗外的雙子塔線條都不直,飛機上的儀表盤都相互扭曲到一起了,這看起來就是「A 里 A 氣的」。

「我們在那張照片中能夠看到物體的結(jié)構(gòu)很準確、陰影也很準確、沒有偽影 —— 這讓我相信這張照片應(yīng)該完全是真實的」法里德說。

Farid 還通過他自己的其他 AI 圖像檢測器識別了這幅圖,另外四種 AI 圖像檢測工具也都認為圖像不是 AI 生成的。

Farid 說,「AI 檢測器是一個工具,但它只是工具包的一部分。用戶需要對整個圖像進行進行一系列的測試,不可能只按一個按鈕就得到答案?!?/p>

而 AI 檢測工具 Optic 確實也沒有給出自己的檢測技術(shù)的具體細節(jié)。

Optic 網(wǎng)站也聲明,「AI 檢測器可能會產(chǎn)生不準確的結(jié)果」。

AI 圖像檢測技術(shù)

Farid 教授在去年曾經(jīng)撰寫過一篇論文,介紹了如何判斷 AI 生圖工具圖像的一致性。

通過判斷圖像上的一致性,可以幫助判斷出圖像是否由 AI 生成。

論文鏈接:https://arxiv.org/ abs / 2206.14617?ref=404media.co

教授首先概述三種相關(guān)的基于物理的分析方式,每種分析都利用了圖像形成過程固有的相同的基礎(chǔ)透視幾何原理。

消失點

平行后退線匯聚于一個消失點。

瓷磚之間的線圖 1 (a) 是平行的。成像時,這些線全部匯聚在一個消失點。如果場景中的平行線在深度上遠離鏡頭,那么就會存在消失點,盡管它可能落在圖像之外。

如果場景中的平行線在深度上不后退,也就是說,如果它們完全平行于鏡頭傳感器(在任何距離),則平行線將被成像為平行線,出于實際目的,可以考慮消失點處于無窮遠。這種幾何學(xué)源于透視投影的基礎(chǔ)知識。

在透視投影下,場景中的點 (X, Y, Z) 被成像到點 (f X / Z, f Y /Z),其中 f 是鏡頭焦距。

由于圖像中點的位置與距離 Z 成反比,因此投影點會作為距離的函數(shù)進行壓縮,從而導(dǎo)致圖像中的線會聚;

2. 平行平面上的平行線會聚到同一個消失點

遠處的盒子在圖 1 (b) 與地板上的瓷磚對齊,使得盒子的邊緣與瓷磚之間的線平行。因為平行平面上的平行線共享一個消失點,所以盒子側(cè)面和瓷磚地板的消失點是相同的;

3. 平面上所有直線的消失點都位于消失線上。

許多組平行線,每組平行線會聚到不同的消失點,如圖 1 (c) 所示。如果平行線組跨越場景中的同一平面,則它們的消失點將位于消失線上。消失線的方向由鏡頭相對于平行線所跨越的平面的旋轉(zhuǎn)來確定

陰影

有點令人驚訝的是,消失點背后的相同幾何形狀也適用于投射陰影。

上圖顯示的是連接盒子上的點及其在投射陰影上的對應(yīng)點的三條光線。擴展圖像邊界后發(fā)現(xiàn),這三條光線相交于一個點,該點對應(yīng)的是照亮場景的光源的投影。

無論光源在附近(臺燈)還是在遠處(太陽),這種與陰影、物體和光相關(guān)的幾何約束都成立,并且無論陰影投射到的表面的位置和方向如何,該幾何約束都成立。

當然,該分析假設(shè)場景由單個主光源照明,從每個對象僅存在單個投射陰影可以明顯看出這一點。

在上面的示例中,照亮場景的光源位于鏡頭前面,因此光源的投影位于圖像平面的上半部分。

然而,如果光線位于鏡頭后面,則光源的投影將位于圖像平面的下半部分。由于這種反轉(zhuǎn),對象約束的陰影也必須反轉(zhuǎn)。

因此,圖像的投射陰影分析必須考慮三種可能性:

(1) 光線位于鏡頭前面,光源的投影位于圖像平面的上半部分,約束錨定在投射陰影上并包圍對象;

(2) 光線在鏡頭后面,光源的投影在圖像平面的下半部分,約束錨定在物體上并包圍投射的陰影;

(3) 光線位于鏡頭中心的正上方或正下方,光源的投影位于無窮遠,約束將在無窮遠相交。如果這些情況中的任何一種導(dǎo)致所有約束的共同交集,則投射陰影在物理上是合理的。

反射

下圖 2 所示的場景是三個盒子反射在平面鏡中。

這個圖的下半部分顯示了真實盒子和虛擬盒子之間的幾何關(guān)系。

橙色線代表鏡子,位于兩組盒子之間的中點。黃線連接真實和虛擬盒子上的對應(yīng)點。這些線彼此平行并垂直于鏡子。

現(xiàn)在考慮一下這些平行線疊加在場景上時如何出現(xiàn)。從鏡子平面觀察時平行的線不再平行。相反,由于透視投影,這些平行線會聚到一個點,就像世界中的平行線會聚到一個消失點一樣。

由于連接場景中對應(yīng)點及其反射的線始終是平行的,因此這些線必須在圖像中具有共同的交點才能在物理上合理。

實例分析

上圖 3 顯示了 AI 合成圖像的三個代表性示例,并對地板和柜臺頂部的幾何透視一致性進行了分析。

每張圖像(在幾個像素內(nèi))準確地捕捉了瓷磚地板的透視幾何形狀,作為一致的消失點(以藍色呈現(xiàn))的證據(jù)。然而,平行臺面(以青色呈現(xiàn))的消失點在幾何上與臺面的消失點不一致。

相應(yīng)的對齊圖塊。即使臺面與瓷磚不平行,青色消失點也應(yīng)位于由瓷磚地板消失點定義的消失線(以紅色呈現(xiàn))上。請注意,對于圖 3 右上角的圖像,瓷磚地板上的水平線幾乎是平行的,因此相應(yīng)的消失點位于無窮遠,因此不會相交。

雖然這些圖像中消失點局部事一致的,但并不是全局一致的。在 25 張合成的廚房圖像中,每張都發(fā)現(xiàn)了相同的模式。

上圖是用提示詞生成的方塊圖片,在陰影處就明顯地出現(xiàn)了不一致性。

上圖 8 所示是將幾何分析應(yīng)用于由 AI 生成的包含了看上去相當準確的反射的圖像結(jié)果。

盡管這些反射在視覺上是合理的,但在幾何上并不一致。

與前幾節(jié)中的投射陰影和幾何結(jié)構(gòu)不同,DALL?E-2 很難合成合理的反射,大概是因為此類反射在其訓(xùn)練圖像數(shù)據(jù)集中不太常見。

基于這些對于 AI 生成圖片局限性的了解,通過對于圖片一致性的檢測,能非常有助于判斷圖片是否由 AI 合成。

圖像識別難,AI 打敗 AI

AI 圖像生成器,正不斷進化。

上半年,Midjourney 爆火,能夠生成足夠逼真的圖片,卻愚弄了很多人。

86 歲教皇頭頂白色小瓜帽、一身喇叭口的白色羽絨服,金屬制的十字架項鏈外露,外加一本正經(jīng)的表情。

當時,這張照片一經(jīng)發(fā)布,在社交媒體上騙過了所有人,被許多網(wǎng)友瘋狂轉(zhuǎn)發(fā),甚至有人直呼教皇太潮了。

在大家都信以為真時,突然有人點出這是 AI 生成的,許多人瞬間傻眼了。

這僅是其中的一個栗子,還有馬斯克新女友 GM 的首席執(zhí)行官 Barra 等各種虛假流傳的圖片,已經(jīng)達完全到以假亂真的程度。

這一事件,直接引發(fā)了馬斯克、蘋果聯(lián)合創(chuàng)始人 Stephen Wozniak 等科技領(lǐng)導(dǎo)人呼吁暫停 AI 的研發(fā)。

雖然 AI 生成有趣、便利,但它給整個行業(yè)帶來了風(fēng)險。

一不小,就會被別有用心的人用其傳播虛假信息、侵犯知識產(chǎn)權(quán),或利用生成「果照」等等。

接下來幾個月,Midjourney 將會發(fā)布最新的 V6 版本,目前 V5 版本已經(jīng)在圖片生成的真實度上做的非常完善。

而其他 AI 圖像生成器也在快速迭代。前段時間,OpenAI 剛剛發(fā)布了 DALL?E 3,與此同時微軟必應(yīng)圖像生成也用上了 DALL?E 3。

當然了,研究人員也在努力構(gòu)建可以辨別圖像的工具,關(guān)鍵是如何追趕上 AI 圖像生成器不斷換代的步伐?

AI 檢測工具競爭賽

現(xiàn)在,已經(jīng)有十幾家公司提供工具來識別圖片是否是由 AI 生成的,它們的名字包括 Sensity AI(深度偽造檢測)、Fictitious.AI(抄襲檢測)、Originality.AI 等等。

人工智能信任與安全公司 Optic 推出了一個「AI or Not」的網(wǎng)站。

在這個網(wǎng)站上,你可以上傳照片或粘貼圖片網(wǎng)址,網(wǎng)站會自動判斷,照片是否是由 AI 生成的。上傳的圖片數(shù)量沒有限制。

另外,你也可以在 Optic 的推特賬戶 @optic_xyz 上發(fā)布或轉(zhuǎn)發(fā)一張圖片,或者加上#aiornot,便會得到一條回復(fù),包括圖片的置信度百分比。

這家公司的首席執(zhí)行官 Andrey Doronichev 表示,Optic 的 AI 工具可以檢查每張圖像中人眼不可見的偽影,例如圖像中亮度和顏色的變化。

讓人驚喜的是,該工具的準確率為 95%。

但是隨著 Midjourney 等 AI 圖像生成工具的升級迭代,「AI or Not」的準確率下降到了 88.9%。

比如,教皇這張圖片,AI 認為 87% 的概率是由人類做的。

教皇穿著白色羽絨服的形象在 Optic 更新前被愚弄

其實有網(wǎng)友表示,仔細去看這張圖,就會發(fā)現(xiàn)有人工智能生成的明顯跡象,包括幾個明顯模糊的細節(jié)區(qū)域:

- 看似不完整的手正試圖抓住一個不太像咖啡杯的東西,旁邊還有污跡

- 教皇佩戴的十字架也不是直角形狀,上面還刻著一個像是用黏土雕刻而且坐著的耶穌

- 眼鏡與臉部的陰影不一致

這幾點都表明這是由人工智能生成的。它僅了解現(xiàn)實的表面,但不了解支配物理對象是如何相互作用的基本規(guī)則。

除了 Optic 家的工具,為內(nèi)容添加標簽的人工智能公司 Hive 近來,也更新了自家的免費 AI 生成的內(nèi)容檢測器。

這個 AI 工具在 DALL-E、Stable Diffusion、Midjourney 的數(shù)百萬張圖像上進行了訓(xùn)練。

Hive 預(yù)計,它能準確檢測到大約 95% 的 AI 生成的圖像,尤其在網(wǎng)上瘋傳的共享圖像,往往比其他圖像識別效果更好。

CEO Kevin Guo 稱,當人們分享人工智能圖像時,他們會選擇最逼真的假圖,所以人們很辨別什么是真的。

左圖是 AI 生成的圖像,可以從兩個手指和奇怪的擊掌辨別,而在普通 iStock 照片中真實的樣子如右圖。

與 Optic 一樣,Hive 在檢測必應(yīng) Image Creator 的圖像時,也失敗了。

不過,這些檢測工具并非止步不前,隨著 AI 圖像整成模型的迭代,它們也會更新升級。

其實,AI 圖像辨別不能僅僅依靠行業(yè)中的檢測工具完成,更應(yīng)該在模型訓(xùn)練時,設(shè)好護欄。

許多人工智能圖像生成器,也被限定了一些內(nèi)容能否被生成的「黑名單」。

比如,必應(yīng) Image Creator 會標記和阻止要求其創(chuàng)建知名公眾人物圖像的用戶提示。

Midjourney 有「human moderators」,并正在推出一種用算法來調(diào)節(jié)用戶請求的方法。

還有 DALL?E 3 技術(shù)報告中介紹道,當你讓 ChatGPT 生成一些「果圖」、或者涉及黑白人等圖片時,輸入的 prompt 直接被改寫。

給 AI 加水印,大廠在做了

此外,數(shù)字水印也是目前增強生成式 AI 安全的重要手段之一,微軟、谷歌等科技巨頭已經(jīng)在產(chǎn)品中使用。

微軟曾在 9 月 Surface 大會上,介紹了 DALL?E 3 加持下的必應(yīng)生成圖像的能力。

與此同時,為了確保圖像不被濫用,微軟團隊使用加密方法為為每一張圖像生成不可見的水印,包括創(chuàng)建時間和日期。

任何人可以點開每張圖片,輕易識別出是否是 AI 生成的。

Meta 還開源了 Stable Signature,可將數(shù)字水印直接嵌入到 AI 自動生成的圖片中。

論文地址:https://arxiv.org/ pdf / 2303.15435.pdf

值得一提的是,Stable Signature 生成的數(shù)字水印不受裁剪、壓縮、改變顏色等破壞性操作影響,能追溯到圖片的初始來源。

它可應(yīng)用于擴散、GAN 等模型,比如 Stable Diffusion。

還有谷歌在 Google Cloud Next 上,也發(fā)布了為 AI 生成的圖像打上水印并進行檢測和識別的 SynthID。

SynthID 使用兩個深度學(xué)習(xí)模型,分別用于水印和識別。它們可以在一組不同的圖像上一起訓(xùn)練。

組合模型針對一系列目標進行了優(yōu)化,包括正確識別帶水印的內(nèi)容,并通過直觀地將水印與原始內(nèi)容對齊來提高水印的隱蔽性。

SynthID 生成的數(shù)字水印是直接嵌入到圖像的像素中的,人眼無法察覺。但 SynthID 可以檢測并識別它們。

SynthID 可以幫助評估圖像由 Imagen 創(chuàng)建的可能性

加州大學(xué)河濱分校電氣和計算機工程教授 Amit Roy-Chowdhury 表示,仔細觀察圖像背景,我們可以用自己的眼睛更好檢測假圖像。

不過,在 AI 模型加速迭代當下,想要有「火眼金睛」太難了。

參考資料:

  • https://www.404media.co/ai-images-detectors-are-being-used-to-discredit-the-real-horrors-of-war/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知