夢晨 西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
CVPR 2024最佳論文獎新鮮出爐,生成式AI成最大贏家!
一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技術(shù)啟發(fā),團(tuán)隊(duì)用人類反饋來改進(jìn)Stable Diffusion等文生圖模型。
這項(xiàng)研究來自UCSD、谷歌等,共同一作華南農(nóng)業(yè)大學(xué)校友Youwei Liang、清華校友Junfeng He、武大、港中文校友Gang Li。
另一篇Generative Image Dynamics更偏理論一些,提出了一種基于圖像空間先驗(yàn)的場景運(yùn)動建模方法,可用于通過靜態(tài)圖像生成無縫循環(huán)視頻,還能實(shí)現(xiàn)與圖像中對象的交互。
這項(xiàng)研究來自谷歌,一作谷歌DeepMind研究員Zhengqi Li(李正奇)。
最佳學(xué)生論文獎也一同公布。
一篇BioCLIP: A Vision Foundation Model for the Tree of Life,構(gòu)建了大規(guī)模生物學(xué)圖像數(shù)據(jù)集,并提出BioCLIP基礎(chǔ)模型來學(xué)習(xí)生物分類的層次表示。
來自俄亥俄州立大學(xué)等,共同一作Samuel Stevens,Jiaman Wu。
另一篇是3D高斯?jié)姙R領(lǐng)域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通過引入3D平滑濾波器、用2D Mip濾波器替換2D膨脹濾波器來消除偽影和混疊等問題。
來自圖賓根大學(xué)、上??萍即髮W(xué)等,三位一作Zehao Yu、Anpei Chen(陳安沛)、Binbin Huang皆為上??萍即髮W(xué)在讀或畢業(yè)生。
今年CVPR的參與規(guī)模和受關(guān)注度都達(dá)到了新高度,在頒獎活動結(jié)束后不久,官網(wǎng)就被擠爆了……
OpenAI還在一場活動中現(xiàn)場獻(xiàn)上GPT-4o語音和視覺模式的最新Demo。
今年CVPR共收到投稿11532份,比上年增加25%,其中2719篇論文被接收,接收率為23.6%,競爭非常激烈。
接下來一起看看獲獎?wù)撐氖侨绾蚊摲f而出的。
最佳論文
Rich Human Feedback for Text-to-Image Generation
論文作者來自加利福尼亞大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)、布蘭代斯大學(xué)。
當(dāng)前文本生圖模型生成的圖像仍存在失真、與文本不匹配、美學(xué)質(zhì)量差等問題,而現(xiàn)有評估指標(biāo)如IS、FID等無法反映單個圖像的質(zhì)量細(xì)節(jié)問題。
先前一些工作嘗試采集人類偏好或評分作為反饋,但仍然是單一的整體得分,缺乏可解釋性和可操作性。因此,作者提出了收集豐富的細(xì)粒度人類反饋信息,用于更好地評估和改進(jìn)生成模型。
作者用Stable Diffusion生成的Pick-a-Pic數(shù)據(jù)集篩選了18K張圖像,之后收集了“標(biāo)注文本描述中與圖像不匹配的關(guān)鍵詞”、“標(biāo)記圖像中的失真/不合理區(qū)域”等人類反饋信息。每張圖像由3人獨(dú)立標(biāo)注,通過平均/投票等方式合并得到最終反饋標(biāo)簽。
之后,設(shè)計(jì)了一種基于ViT和T5X的多模態(tài)Transformer模型RAHF,使用三種預(yù)測器預(yù)測上述豐富的人類反饋信息:
使用卷積層和上采樣層預(yù)測失真和不匹配的熱力圖
使用卷積層和全連接層預(yù)測4個方面的評分
使用Transformer解碼器生成帶有特殊token的文本序列,標(biāo)識不匹配的關(guān)鍵詞
實(shí)驗(yàn)中,RAHF模型在多個任務(wù)上顯著優(yōu)于基線模型,如ResNet-50和CLIP。
此外,作者還探索了三種利用RAHF預(yù)測的豐富反饋來改進(jìn)文本到圖像生成模型Muse方法。
使用預(yù)測的質(zhì)量評分篩選優(yōu)質(zhì)數(shù)據(jù)微調(diào)Muse模型,生成圖像的質(zhì)量前后對比如下:
使用預(yù)測的失真熱力圖生成掩碼區(qū)域,在該區(qū)域內(nèi)對Muse生成圖像進(jìn)行局部修補(bǔ),減少了生成圖像的失真問題:
Generative Image Dynamics
論文作者來自谷歌研究院。
自然界中的場景總是在運(yùn)動,即使是看似靜態(tài)的場景也會因?yàn)轱L(fēng)、水流、呼吸等而產(chǎn)生微妙的振蕩。
論文提出了一種從單張靜態(tài)圖像生成自然振蕩動畫的新方法,而且支持用戶與圖中物體進(jìn)行交互:
團(tuán)隊(duì)發(fā)現(xiàn)自然場景中的振蕩運(yùn)動,如樹葉擺動等,主要由低頻分量組成,因此引入了譜體積作為運(yùn)動表示,即對視頻序列中提取的像素運(yùn)動軌跡進(jìn)行傅里葉變換得到的頻域表示,只需少量的低頻傅里葉系數(shù)即可保留大部分運(yùn)動信息。
然后,作者采用潛變量擴(kuò)散模型從輸入圖像預(yù)測譜體積,并提出了頻率自適應(yīng)歸一化和頻率協(xié)調(diào)去噪兩種策略來提高預(yù)測質(zhì)量。
最后,將預(yù)測的譜體積通過逆傅里葉變換轉(zhuǎn)化為運(yùn)動紋理,并設(shè)計(jì)了一種基于圖像的渲染模塊,將輸入圖像按預(yù)測的運(yùn)動軌跡進(jìn)行前向渲染,最終生成展現(xiàn)自然振蕩運(yùn)動的動畫視頻序列。
結(jié)合基于圖像的渲染模塊,這些軌跡可以用于多個應(yīng)用場景,例如將靜態(tài)圖像轉(zhuǎn)換為無縫循環(huán)的視頻,或者通過將光譜體積解釋為圖像空間模態(tài)基底,近似物體動態(tài),讓用戶能夠與真實(shí)圖片中的物體進(jìn)行逼真的交互。
作者從定量和定性兩方面評估生成視頻的質(zhì)量,結(jié)果顯示該方法明顯優(yōu)于基準(zhǔn):
最后再來看一下效果:
最佳學(xué)生論文
BioCLIP: A Vision Foundation Model for the Tree of Life
論文作者來自俄亥俄州立大學(xué)、微軟研究院、加利福尼亞大學(xué)歐文分校、倫斯勒理工學(xué)院。
他們構(gòu)建了一個大規(guī)模生物學(xué)圖像數(shù)據(jù)集TreeOfLife-10M,包含1040萬張圖像,覆蓋454103個生物物種,并提出了BioCLIP模型,利用CLIP式的多模態(tài)對比學(xué)習(xí)目標(biāo),結(jié)合生物學(xué)分類層次結(jié)構(gòu)用TreeOfLife-10M數(shù)據(jù)集預(yù)訓(xùn)練模型。
使用該方法可很好地捕獲生物分類體系的層級結(jié)構(gòu),從而實(shí)現(xiàn)對看不見類別樣本的泛化能力。
Mip-Splatting: Alias-free 3D Gaussian Splatting
3D高斯濺射展示了令人印象深刻的新穎視圖合成結(jié)果,達(dá)到了高效率和高保真度。然而,當(dāng)改變采樣率時,例如通過改變焦距或相機(jī)距離,可以觀察到強(qiáng)烈的偽影。
團(tuán)隊(duì)發(fā)現(xiàn)這種現(xiàn)象的根源可歸因于缺乏3D頻率約束和2D膨脹濾波器的使用。
為了解決這個問題,團(tuán)隊(duì)引入了一個3D平滑濾波器,根據(jù)輸入視圖引起的最大采樣頻率來限制3D Gaussian primitive的大小,從而消除放大時的高頻偽影。
此外,用模擬2D盒式濾波器的2D Mip濾波器替換2D膨脹濾波器,可以有效緩解混疊和膨脹問題。
團(tuán)隊(duì)還提供了在線演示,感興趣的可以玩起來了。
https://niujinshuchong.github.io/mip-splatting-demo/
最佳論文:
https://arxiv.org/abs/2312.10240
https://generative-dynamics.github.io
最佳學(xué)生論文:
https://arxiv.org/abs/2311.16493
https://arxiv.org/pdf/2311.18803
參考鏈接:
[1]https://x.com/CVPR
[2]https://x.com/PauloFagundesIA/status/1803446527752278425
發(fā)表評論