文本到圖像的擴散模型在文本提示的指導下展示了前所未有的創作能力,例如在視覺藝術、合成數據集構建以及市場營銷和廣告中的圖像編輯等創意工作。然而,基于特定主題生成個性化實例仍然具有挑戰性。
為此,vivo影像規劃預研部研究員官善琰等提出一種新的框架HybridBooth。該框架融合了基于優化和直接回歸方法的優點,創造一種平衡質量和速度的混合方法,從而實現了高效、精確的主題驅動生成。相關論文成果收錄于ECCV 2024。

同時,深度學習在模擬復雜粒子系統(如流體)的物理動力學方面顯示出巨大的潛力。然而,神經網絡是否可以直接從觀察到的圖像推斷流體動力學仍然是一個懸而未決的問題。對此官善琰研究員等提出了神經流體NeuroFluid,其為首個基于粒子的流體動力學的無監督學習解決方案。相關論文成果收錄于ICML 2022。

NeuroFluid關鍵思想是在端到端可訓練的框架中,將基于粒子的流體模擬與粒子驅動的神經渲染連接起來,使兩個網絡可以聯合優化,從而獲得兩者之間合理的粒子表示。實驗數據表明,NeuroFluid學習了更加合理的流體動力學,可以在動態基礎、預測和新視圖合成方面產生不錯的結果。

《易經·說卦》有言:“窮理盡性,以至于命”。 人類能夠輕松辨別內在動態并適應新場景,但如何賦予機器像人類一樣“觀察、理解和推理”物理世界的能力往往面臨巨大挑戰。針對如何從視覺觀察中準確地推斷出實際的內在動力學問題,官善琰研究員等提出了基于學習且具有物理知識先驗的神經材料適配器NeuMA。相關論文成果收錄于NeurIPS 2024。

NeuMA促進對實際動態的準確學習,同時保持物理先驗的通用性和可解釋性。此外,還提出了一種粒子驅動的3D高斯濺射變體Particle-GS,能夠連接模擬和觀察到的圖像,允許通過反向傳播圖像梯度來優化模擬器。

在不同材料和初始條件下對不同動態場景下的?NeuMA?進行了評估。該方法在物體動態基礎和動態場景渲染方面具有競爭力,同時在新形狀、多物體交互和長時間預測方面具有良好的泛化性。


11月19日19點,智猩猩邀請到vivo影像規劃預研部研究員官善琰參與「智猩猩通用視覺講座」04講,主講《基于視覺的物理規律反演》。講座過程中將會分析當前視覺反演框架的局限性,介紹HybridBooth框架如何提升個性化反演精度,NeuroFluid在流體動力學中的應用,以及NeuMA神經材質適配器在內在動態建模中的優勢。這些方法為基于視覺的物理規律反演提供了新的技術路徑。
講者
官善琰,vivo影像規劃預研部研究員
1、一般視覺反演框架存在的問題
2、高效個性化屬性反演框架HybridBooth解析
3、動力學視覺反演
-NeuroFluid解決視覺場景逆問題理解流體動力學
-神經材質適配器NeuMA提升內在動態建模精度
4. 實驗比較與分析
直 播 信 息
直播時間:11月19日19:00
成果
論文標題
《HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation》
《Neurofluid: Fluid dynamics grounding with particle-driven neural radiance fields》
《NeuMA: Neural Material Adaptor for?Visual Grounding of Intrinsic Dynamicas》
論文鏈接
//arxiv.org/abs/2410.08192
//arxiv.org/abs/2203.01762
//arxiv.org/abs/2410.08257
項目地址
//sites.google.com/view/hybridbooth
//github.com/syguan96/NeuroFluid
//xjay18.github.io/projects/neuma.html
如何報名
有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺04”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。
