三維虛擬人在數字時代扮演了重要的角色,但是創建一個三維虛擬人的過程非常復雜,包括體型生成,具體外觀生成,以及動作序列的生成等。該過程涉及到圖像處理技術、圖像生成技術和深度合成技術等,并且這些技術需要成對的圖像數據來進行有監督的訓練,這不僅限制了生成的豐富性,而且使生成過程的靈活性降低。
與圖像數據相比,自然語言作為友好的控制信號,可以更方便地控制三維虛擬人生成及動作合成。視覺語言模型CLIP是一種使用大規模圖像-文本對訓練的視覺語言預訓練模型。通過對圖像的直接監督,CLIP 在零次學習文本驅動的圖像生成方面取得了巨大成功。
基于這一特性,南洋理工大學在讀博士洪方舟等人提出了一個文本驅動的三維虛擬人創建框架AvatarCLIP。該框架結合大規模預訓練模型CLIP,根據文字描述身體形狀、外觀和動作來生成三維虛擬人,使非專業出身的用戶能夠自定義三維虛擬人的體型和外觀?。此外,利用在運動 VAE 中學習的先驗知識,洪博等人還提出了一種零次學習文本引導的動作合成方法,用于三維虛擬人動作合成。
9月19日晚7點,「AI新青年講座」第159講邀請到南洋理工大學MMLab在讀博士洪方舟參與,主講《零次學習文字驅動的三維虛擬人生成與動作合成》。
講者
洪方舟,南洋理工大學MMLab實驗室在讀博士,導師為劉子緯教授,此前在清華大學軟件學院獲得學士學位,2021年獲得谷歌博士獎學金;研究興趣為三維計算機視覺,尤其是三維表達學習及其與計算機圖形學的交叉。
講座介紹
主題
零次學習文字驅動的三維虛擬人生成與動作合成
提綱
1、基于文本生成方法的背景介紹
2、文本驅動的三維虛擬人創建框架AvatarCLIP
3、基于視覺語言預訓練模型CLIP的體型及外觀生成
4、零次學習文本引導的動作合成
直播信息
直播時間:9月19日19:00
直播地點:智東西公開課知識店鋪
論文成果
論文名稱:《AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars》、
論文地址://arxiv.org/abs/2205.08535
代碼地址://github.com/hongfz16/AvatarCLIP