1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

新智元 2024/6/20 20:51:35 責編：問舟

評論：

一年一度 CVPR 最佳論文放榜了！剛剛結(jié)束開幕演講上，公布了 2 篇最佳論文、2 篇最佳學生論文、榮譽提名等獎項。值得一提的是，今年北大上交摘得最佳論文提名桂冠，上科大奪得最佳學生論文。

2024 年 CVPR 會議將在美國西雅圖拉開帷幕，根據(jù)官方的公告，本屆會議已經(jīng)成為 CVPR 歷史上規(guī)模最大、參與人數(shù)最多的一屆，截至 6 月 19 日，現(xiàn)場參會人數(shù)已超過 1.2 萬人。

此外，近年來的論文接收數(shù)量也水漲船高，共有 11532 篇提交論文，錄用率為 23.58%，比去年的 9155 篇論文多出了 2000 多篇。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

由于開年 Sora 模型帶起的視頻生成的熱潮，今年 CVPR 接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」，緊隨其后的兩個領(lǐng)域分別是「多視角和傳感器的 3D」以及「人體：面部、軀體、姿勢、手勢和移動」。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

從會議現(xiàn)場的照片中，也能肉眼感受到 CVPR 的熱烈程度。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

揭秘 Sora 訓(xùn)練技巧

Sora 研究團隊的負責人 Tim Brooks 也在研討會上發(fā)表了演講，揭秘了 Sora 模型的一些訓(xùn)練技巧以及視頻生成模型未來的新功能。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

演講中，Brooks 表示自己看好 Transformer 架構(gòu)的可擴展性，如果算力足夠，我們有望借此實現(xiàn)世界模擬器。

此外他也分享了一些訓(xùn)練模型的心得，比如不要為了某個特定任務(wù)去調(diào)整模型架構(gòu)，而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。

比如，Sora 在訓(xùn)練時的技巧就多與數(shù)據(jù)有關(guān)，包括使用不同比例的圖像和視頻，以及搭配字幕訓(xùn)練。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

有推特網(wǎng)友表示，Brooks 的演講堪比追星現(xiàn)場，都差點擠不進去。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

當然，最重磅的還是 CVPR 在今天凌晨的大會開幕演講上。正式官宣了 2024 年最佳論文、最佳學生論文等大獎的得主。

該獎項每年都會表彰在計算機視覺、人工智能（AI）、機器學習（ML）、增強現(xiàn)實、虛擬現(xiàn)實和混合現(xiàn)實（AR / VR / MR）、深度學習等領(lǐng)域的頂尖研究。

今年，CVPR 從超過 11,500 篇論文提交中，選出了以下 10 篇最佳論文 —— 是 2023 年的兩倍之多。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

最佳論文

題目：Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

機構(gòu)：谷歌研究院

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在這項工作中，作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實的動畫，并顯著優(yōu)于現(xiàn)有的基準方法。此外，他們還展示了在多個后續(xù)應(yīng)用中的潛力，例如創(chuàng)建無縫循環(huán)或交互式圖像動態(tài)效果。

題目：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

機構(gòu)：，加利福尼亞大學圣地亞哥分校，谷歌研究院，南加利福尼亞大學，劍橋大學，布蘭迪斯大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在這項工作中，作者提出了第一個詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來說，他們設(shè)計并訓(xùn)練了一個多模態(tài) Transformer 來預(yù)測這些詳盡的人類反饋，并展示了一些改進圖像生成的實例。

這篇論文的共同一作分別是華南農(nóng)業(yè)大學校友 Youwei Liang、清華校友 Junfeng He、武大及港中文校友 Gang Li。

榮譽提名

題目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

機構(gòu)：北京大學，上海交通大學，東京大學，國立情報學研究所

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

題目：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

機構(gòu)：麻省理工學院，西門菲莎大學，多倫多大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳學生論文

題目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

機構(gòu)：圖賓根大學，圖賓根 AI 中心，上?？萍即髮W，捷克理工大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在這項工作中，作者提出了一種通過 3D 平滑濾波器和 2D Mip 濾波器改進 3D 高斯?jié)姙R（3DGS）的全新方法 Mip-Splatting，用于在任何尺度上進行無鋸齒渲染。該方法在分布外測試場景中顯著優(yōu)于當前最先進的方法，當測試采樣率與訓(xùn)練采樣率不同的時候，能夠更好地適應(yīng)分布外的相機姿態(tài)和縮放因子。

值得一提的是，論文的三位一作 Zehao Yu、Anpei Chen（陳安沛）、Binbin Huang，都是上?？萍即髮W在讀或畢業(yè)生。

題目：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

機構(gòu)：俄亥俄州立大學，微軟研究院，加利福尼亞大學爾灣分校，倫斯勒理工學院

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在這項工作中，作者提出了 TREEOFLIFE-10M 和 BIOCLIP，分別是一個大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個用于生命之樹的基礎(chǔ)模型。研究表明，BIOCLIP 是一個強大的細粒度生物分類器，在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。

榮譽提名

題目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

機構(gòu)：波恩大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

題目：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

機構(gòu)：北京大學，華為諾亞方舟實驗室

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

題目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

機構(gòu)：卡內(nèi)基梅隆大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

題目：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

機構(gòu)：俄勒岡州立大學

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR 的主辦方電氣和電子工程師學會計算機協(xié)會（IEEE Computer Society, CS），也正式宣布了模式分析和機器智能技術(shù)社區(qū)（TCPAMI）的獎項。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Longuet-Higgins 獎

該獎項授予那些經(jīng)得起時間檢驗的論文，2024 年的 Longuet-Higgins 獎表彰了 2014 年在 CVPR 上發(fā)表的最具影響力的論文。

2024 年獲獎?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

機構(gòu)：加利福尼亞大學伯克利分校，ICSI

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

論文地址：https://www.cv-foundation.org/ openaccess / content_cvpr_2014 / papers / Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在這項工作中，作者通過（1）標記圖像中不合理或與文本不匹配的區(qū)域，以及（2）注釋文本提示中被誤表示或缺失的詞語，來豐富反饋信號。

具體來說，他們在 1.8 萬張生成圖像（RichHF-18K）上收集了豐富的人類反饋，并訓(xùn)練了一個多模態(tài) Transformer 來自動預(yù)測這些反饋。

實驗結(jié)果展示了預(yù)測的豐富人類反饋可以用于改進圖像生成，例如，通過選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來微調(diào)生成模型，或者通過創(chuàng)建帶有預(yù)測熱圖的掩碼來修補問題區(qū)域。

值得注意的是，這些改進不僅適用于生成反饋數(shù)據(jù)的模型（如 Stable Diffusion 變體），還可以推廣到其他模型上（如 Muse）。

年輕研究員獎

該獎項表彰在獲得博士學位七年內(nèi)對計算機視覺領(lǐng)域作出杰出研究貢獻的一到兩名研究人員。

2024 年獲獎?wù)撸篈ngjoo Kanazawa, Carl Vondrick

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Angjoo Kanazawa 是加利福尼亞大學伯克利分校電氣工程與計算機科學系的助理教授，領(lǐng)導(dǎo) BAIR 下的 Kanazawa AI Research（KAIR）實驗室，并在 Wonder Dynamics 的顧問委員會任職。

此前，她在馬里蘭大學帕克分校完成了計算機科學博士學位，導(dǎo)師是 David Jacobs。之后，來到 UC 伯克利的 BAIR 做博士后研究，導(dǎo)師是 Jitendra Malik、Alexei A. Efros 和 Trevor Darrell。此外，還曾在 Google Research 擔任研究科學家。

眾所周知，我們生活在一個動態(tài)的 3D 世界中，人和動物不斷與環(huán)境互動。那么，我們該如何構(gòu)建一個系統(tǒng)，從日常的照片和視頻中捕捉、感知并理解這個 4D 世界？又該如何從圖像和視頻的觀測中學習 4D 世界的先驗知識呢？

Angjoo Kanazawa 的研究方向涵蓋了計算機視覺、計算機圖形學和機器學習，并致力于回答上面這些問題。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Carl Vondrick 是哥倫比亞大學計算機科學系的教授，研究方向主要集中在計算機視覺、機器學習及其應(yīng)用。

此前，他于 2011 年在加利福尼亞大學爾灣分校獲得學士學位，導(dǎo)師是 Deva Ramanan。之后，于 2017 年在 MIT 獲得博士學位，導(dǎo)師是 Antonio Torralba。此外，還曾在谷歌的機器感知團隊擔任研究科學家，并在 Cruise 擔任訪問研究員。

具體來說，他的研究通過訓(xùn)練機器觀察和與環(huán)境互動，旨在創(chuàng)建穩(wěn)健且多功能的感知模型。實驗室經(jīng)常研究如何利用大量未標記數(shù)據(jù)進行任務(wù)和模態(tài)遷移。其他研究方向包括場景動態(tài)、聲音和語言、可解釋模型以及機器人感知等。

Thomas Huang 紀念獎

該獎項于 2020 年設(shè)立，以紀念 Thomas S. Huang，他是其時代計算機視覺、模式識別和人機交互領(lǐng)域的杰出人物。該獎項旨在表彰和致敬在計算機視覺社區(qū)中長期服務(wù)、研究和指導(dǎo)的杰出個人。

2024 年獲獎?wù)撸篈ndrea Vedaldi

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

Andrea Vedaldi 是牛津大學工程科學系計算機視覺和機器學習專業(yè)的教授，同時擔任 VGG 小組的聯(lián)合負責人。

他主要研究計算機視覺和機器學習方法，目標是自動理解圖像和視頻的內(nèi)容，并且?guī)缀醪恍枰斯けO(jiān)督，特別關(guān)注語義和 3D 幾何。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

此前，他在帕多瓦大學獲得學士學位，并在加利福尼亞大學洛杉磯分校獲得碩士和博士學位。

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

參考資料：

https://cvpr.thecvf.com/Conferences/2024/News/Awards
https://x.com/skalskip92/status/1803181265581121752

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場

揭秘 Sora 訓(xùn)練技巧

最佳論文

榮譽提名

最佳學生論文

榮譽提名

Longuet-Higgins 獎

年輕研究員獎

Thomas Huang 紀念獎

相關(guān)文章

1.2 萬人朝圣 CVPR，華人學者奪最佳論文！Sora 舵手火爆演講成大型追星現(xiàn)場