利用AI幻覺(jué)檢測(cè)圖像真實(shí)性示意圖
俄羅斯科研團(tuán)隊(duì)近期在arXiv發(fā)表了一項(xiàng)顛覆性研究——《勿抗幻覺(jué),善用之:基于原子事實(shí)NLI的圖像真實(shí)性評(píng)估》,提出通過(guò)利用大視覺(jué)語(yǔ)言模型(LVLM)的"幻覺(jué)"缺陷來(lái)檢測(cè)AI生成圖像的反常之處。這項(xiàng)由斯科爾科沃理工學(xué)院、莫斯科物理技術(shù)學(xué)院聯(lián)合MTS AI等機(jī)構(gòu)完成的研究,為開(kāi)源社區(qū)提供了一種無(wú)需微調(diào)模型的輕量級(jí)檢測(cè)方案。
逆向思維:化缺陷為利器
傳統(tǒng)方法往往試圖通過(guò)提升模型精度來(lái)減少幻覺(jué),而該團(tuán)隊(duì)卻另辟蹊徑:
原子事實(shí)提取:使用LLaVA-v1.6-mistral-7b模型生成多角度圖像描述
矛盾檢測(cè):通過(guò)自然語(yǔ)言推理(NLI)模型分析陳述間的邏輯沖突
聚類評(píng)分:采用k-means算法將矛盾值聚類,以低值簇中心作為"失真指數(shù)"
"就像讓一個(gè)容易夸大其詞的人來(lái)挑刺,"論文第一作者比喻道,"當(dāng)模型看到三峰駱駝這種違背常識(shí)的圖像時(shí),它可能編造出'雙頭駱駝'等更荒誕的說(shuō)法,這些矛盾恰恰暴露了圖像的問(wèn)題。"
測(cè)試表現(xiàn):開(kāi)源模型的逆襲
研究團(tuán)隊(duì)采用WHOOPS!數(shù)據(jù)集進(jìn)行驗(yàn)證,這個(gè)包含500張合成圖像的基準(zhǔn)測(cè)試庫(kù)專門(mén)用于評(píng)估AI的常識(shí)推理能力。令人驚訝的是:
在102組真實(shí)/異常圖像對(duì)比測(cè)試中,該方法準(zhǔn)確率達(dá)到92%,與人類評(píng)委共識(shí)率持平
性能接近經(jīng)過(guò)專門(mén)微調(diào)的BLIP2模型,遠(yuǎn)超其他零樣本學(xué)習(xí)方法
InstructBLIP模型表現(xiàn)優(yōu)于同體量的LLaVA模型,展現(xiàn)出更強(qiáng)的矛盾捕捉能力
"最大的啟示在于,模型規(guī)模并非決定性因素,"研究者指出,"關(guān)鍵在于如何系統(tǒng)性地捕捉和量化那些細(xì)微的邏輯裂縫。"
技術(shù)民主化的嘗試
區(qū)別于依賴GPT-4等閉源商業(yè)系統(tǒng)的方案,該研究堅(jiān)持開(kāi)源路線:
完整代碼已發(fā)布在GitHub
使用Mistral-7B等可本地部署的輕量模型
避免商業(yè)API可能存在的服務(wù)中斷、費(fèi)用波動(dòng)等問(wèn)題
這種取向特別適合獨(dú)立開(kāi)發(fā)者、視覺(jué)特效團(tuán)隊(duì)等需要可控工具鏈的群體。正如論文強(qiáng)調(diào)的:"在檢測(cè)AI生成圖像這個(gè)戰(zhàn)場(chǎng)上,開(kāi)源生態(tài)應(yīng)該有自己的武器庫(kù)。"
FaithScore評(píng)估機(jī)制示意圖解析。首先,識(shí)別大視覺(jué)語(yǔ)言模型(LVLM)生成答案中的描述性陳述;接著,將這些陳述分解為獨(dú)立的原子事實(shí);最后,將原子事實(shí)與輸入圖像進(jìn)行比對(duì)驗(yàn)證其準(zhǔn)確性。下劃線文本標(biāo)注客觀描述內(nèi)容,藍(lán)色文字則標(biāo)示幻覺(jué)陳述,使FaithScore能夠輸出可解釋的事實(shí)準(zhǔn)確性度量。來(lái)源:https://arxiv.org/pdf/2311.01477"
局限與展望
該方法仍存在模型依賴性問(wèn)題——如果未來(lái)AI完全克服了幻覺(jué)缺陷,這套機(jī)制將失效。但研究者認(rèn)為:"至少在可預(yù)見(jiàn)的未來(lái),幻覺(jué)仍將是AI的'特征'而非'故障'。"
團(tuán)隊(duì)正在探索將該框架擴(kuò)展至視頻檢測(cè)領(lǐng)域,并開(kāi)發(fā)更精細(xì)的矛盾權(quán)重算法。這項(xiàng)研究或許預(yù)示著:在AI安全這場(chǎng)貓鼠游戲中,"以子之矛攻子之盾"將成為越來(lái)越重要的戰(zhàn)術(shù)。
精選文章:
藝術(shù)真的能治愈嗎?創(chuàng)造力對(duì)心理健康的力量
從"以人為中心"到"作為人的設(shè)計(jì)師":設(shè)計(jì)思維的范式革命