賽博照妖鏡下,AI美女全變鬼。
來(lái)看它的牙。
把圖像飽和度拉滿,AI人像的牙齒就會(huì)變得非常詭異,邊界模糊不清。
整體圖片的顏色也正常,麥克風(fēng)部分更是奇怪。
對(duì)比真實(shí)人類照片,則應(yīng)該是這樣的。
牙齒是清晰的,圖片色塊都是均勻一致的。
這個(gè)工具已經(jīng)開放,人人都能拿著照片去試試。
AI生成視頻中的某一幀,也難逃此大法。
不漏牙的照片也會(huì)暴露問(wèn)題。
不過(guò)BTW,這個(gè)工具出自Claude之手。用AI破解AI,奇妙的閉環(huán)。
有一說(shuō)一,最近AI人像太逼真又引發(fā)了不小討論,比如一組大火的“TED演講者視頻”,其實(shí)沒(méi)有一個(gè)是真人。
不只是人臉難以區(qū)分,就連之前AI的短板——寫字,現(xiàn)在都能完全以假亂真。
更關(guān)鍵的是,生成這樣的AI人像,成本也不高。低至5分鐘、每20秒1.5美元(人民幣10塊左右)的價(jià)格即可搞定。
這下網(wǎng)友們都坐不住了,紛紛搞起AI打假大賽。
近5千人來(lái)討論,這兩張圖到底哪張是真人。
給出的理由五花八門。有人發(fā)現(xiàn)文字、花紋細(xì)節(jié)很抽象,有人則覺(jué)得人物眼神很空洞……
最先進(jìn)的AI們生成人像有啥規(guī)律,逐漸被大家摸索出來(lái)了。
不看細(xì)節(jié)已很難分辨
匯總來(lái)看,調(diào)整飽和度或許是目前最快速辨別的方法。
AI群像照在這種方法下暴露得更加徹底。
不過(guò)它存在一個(gè)問(wèn)題。如果圖像用JPEG算法壓縮過(guò)后,該方法可能失效。
比如確定這張照片是真人照片。
但是由于畫質(zhì)壓縮以及光線等問(wèn)題,人物牙齒也有點(diǎn)模糊。
所以網(wǎng)友們還列出了更多分辨人像是否是AI合成的方法。
第一種方法,簡(jiǎn)單說(shuō)就是依靠人類的知識(shí)判斷。
由于AI學(xué)習(xí)圖像的方式和人類并不一致,難免無(wú)法100%掌握人類視角下的視覺(jué)信息。
造成的結(jié)果就是,AI生成的圖片常常包含與現(xiàn)實(shí)世界不符之處,這就為圖像的鑒別提供了著手之處。
用開頭的這張圖片作為例子。
從整體上看,人物的皮膚過(guò)于光滑,看不到任何的毛孔,這種過(guò)于完美的特征反而增加了不真實(shí)感。
當(dāng)然這種“不真實(shí)感”并不完全等同于“造假”,畢竟經(jīng)過(guò)磨皮處理的圖片同樣看不到毛孔。
但這也并非唯一的判斷因素,AI在圖片中留下的與常識(shí)的出入也未必只有一處。
實(shí)際上,這張圖只要稍微看以下細(xì)節(jié),就能看到一個(gè)比較明顯的特征——胸牌上方掛鉤奇特的連接方式。
還有在高飽和度模式下露出破綻的麥克風(fēng),放大之后直接用肉眼也能看出端倪。
更為隱蔽的是,頭發(fā)末端有幾根毛發(fā)的位置很不合理,但這樣的特征,恐怕要擁有列文虎克級(jí)別的視力才能看到了。
不過(guò),隨著生成技術(shù)的進(jìn)步,能夠找到的特征越來(lái)越隱蔽,也是一個(gè)無(wú)法避免的趨勢(shì)。
還有一種方法是看文字,雖然AI在字型的刻畫上正逐漸克服“鬼畫符”的問(wèn)題,但正確地渲染出有正確實(shí)際含義的文字還存在一些困難。
比如有網(wǎng)友發(fā)現(xiàn),照片中的人佩戴的胸牌上,Google標(biāo)志的下方最后一行字中的兩個(gè)字母是“CA”,表示美國(guó)加州,前面的一大長(zhǎng)串應(yīng)該是城市名。
但實(shí)際上,加州根本沒(méi)有名字如此之長(zhǎng)的城市。
除了這些物體本身的細(xì)節(jié),還有光線、陰影等信息也可以用來(lái)判斷真?zhèn)巍?/p>
這張圖片是從一段視頻當(dāng)中提取的,在它所在的視頻當(dāng)中還有這樣的一幀。
在話筒右側(cè)的位置,有一片十分詭異的陰影,這片陰影對(duì)應(yīng)的是人物的一只手,顯然AI在這里處理得有所欠缺。
說(shuō)到視頻,由于涉及前后內(nèi)容一致性,AI倒是比在靜態(tài)圖像中更容易露出雞腳馬腳。
還有一些特征不算“常識(shí)錯(cuò)誤”,但也體現(xiàn)出了AI在生成圖像時(shí)的一些偏好。
比如這四張圖,都是AI合成的“普通人”(average people),有沒(méi)有發(fā)現(xiàn)什么共同之處?
有網(wǎng)友表示,這四張圖里的人,沒(méi)有一個(gè)是笑臉,這點(diǎn)似乎就體現(xiàn)了AI生圖的某種特征。
針對(duì)這幾張圖而言確實(shí)如此,但這樣的判斷方式很難形成系統(tǒng),畢竟不同的AI繪圖工具,特點(diǎn)也都不盡相同。
總之,為了應(yīng)對(duì)逐漸進(jìn)步的AI,一方面可以加大“列文虎克”的力度,一方面還可以引入像拉高飽和度這樣的圖像處理技術(shù)。
但如果這樣的“量變”積累得越來(lái)越多,肉眼判斷也會(huì)越來(lái)越困難,圖像飽和度可能也有被AI攻破的一天。
所以人們也在轉(zhuǎn)變思路,想到了“以模制模”的方法,用AI生成的圖片訓(xùn)練檢測(cè)模型,從圖像中分析更多特征。
比如AI生成的圖像在頻譜、噪聲分布等方面存在許多特點(diǎn),這些特點(diǎn)依靠肉眼無(wú)法捕捉,但AI卻能看得很清楚。
當(dāng)然,也不排除檢測(cè)方法落后、跟不上模型變化,甚至模型開發(fā)者專門進(jìn)行對(duì)抗性開發(fā)的可能。
比如前文一直在討論的這張圖片,某AI檢測(cè)工具認(rèn)為它是AI合成的概率只有2%。
但AI造假和AI檢測(cè)之間的博弈過(guò)程,本身就是一場(chǎng)“貓鼠游戲”。
所以在檢測(cè)之外,可能還需要模型的開發(fā)者也負(fù)起一些責(zé)任,例如給AI生成的圖片打上隱形水印,讓AI造假無(wú)處遁形。
AI魔高一尺
值得一提的是,如上引發(fā)恐慌的AI人像,不少都是由最近爆火的Flux生成/參與制作。
甚至大家已經(jīng)開始默認(rèn),效果太好難以分辨的,就是Flux做的。
它由Stable Diffusion原班人馬打造,發(fā)布才10天就在網(wǎng)絡(luò)上掀起軒然大波。
這些精美的假TED演講照片,都是出自它手。
還有人用Flux和Gen-3一起做出了精美的護(hù)膚品廣告。
以及多角度的各種合成效果。
它很好解決了AI畫手、AI生成圖片中文字等問(wèn)題。
這直接導(dǎo)致現(xiàn)在人類區(qū)分AI畫圖,不能再直接看手和文字了,只能盯著蛛絲馬跡猜。
Flux應(yīng)該是在手部、文字等指標(biāo)上加強(qiáng)了訓(xùn)練。
這也意味著,如果當(dāng)下的AI繼續(xù)在紋理細(xì)節(jié)、色彩等方面下功夫訓(xùn)練,等到下一代AI畫圖模型出來(lái)時(shí),人類的辨認(rèn)方法可能又要失效了……
而且Flux還是開源、筆記本電腦上可運(yùn)行的。不少人現(xiàn)在已經(jīng)在Forget Midjourney了。
從Stable Diffusion到Flux,用了2年。
從“威爾史密斯吃面條”到“Tedx演講者”,用了1年。
真不知道以后為了分辨AI生成,人類得想出哪些歪招了……
發(fā)表評(píng)論
2024-08-13 10:58:06