智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
AI視頻(pin)生(sheng)成賽道風起云涌,國(guo)內外(wai)新穎(ying)的文生(sheng)、圖生(sheng)視頻(pin)產品層出(chu)不(bu)窮。在各大廠商的“內卷”之下,當下的視頻(pin)生(sheng)成模(mo)型各方面已經(jing)接近“以假亂(luan)真”的效果。
但(dan)與此同(tong)時,大部分視(shi)頻(pin)生(sheng)成(cheng)模型的(de)準(zhun)確程(cheng)度、遵循指(zhi)令的(de)能力還(huan)有待提升,生(sheng)成(cheng)視(shi)頻(pin)仍然是一個“抽卡”的(de)過(guo)程(cheng),往往需要用戶生(sheng)成(cheng)許多(duo)次,才能獲得符合需求的(de)結(jie)果。這(zhe)也造成(cheng)算力成(cheng)本過(guo)高、資源(yuan)浪費(fei)等問題。
如何提升(sheng)視(shi)頻(pin)生(sheng)成的精準度,減少(shao)“抽卡(ka)”次數,利用盡可能少(shao)的資源來獲取符合需求的視(shi)頻(pin)?
智東西8月3日報道,阿里團隊近日推出視頻生成模型Tora,能夠根據軌跡、圖像、文本或其組合,簡單幾筆快速生成精確運動控制的視頻,同時也支持首尾幀控制,讓視頻生成的可控性又上了一個階梯。
Tora是首個面向軌跡的DiT框架模型,利用DiT的可擴展性(xing),Tora生成的物(wu)體運動不僅能精確(que)地(di)遵循軌跡,而且可以有效地(di)模擬物(wu)理世界動態,相關(guan)論文已于8月1日發布在arXiv上(shang)。

▲Tora論文
Tora目前僅提(ti)供視頻演(yan)示,其項(xiang)目主頁(ye)顯示,其后續將發(fa)布在線Demo和推理、訓練代碼(ma)。
論文地址:
//arxiv.org/abs/2407.21705
項目地址:
//ali-videoai.github.io/tora_video/
一、三種模態組合輸入,精準控制運動軌跡
Tora支持軌跡、文本、圖像三種模態,或它們的(de)(de)組合輸入(ru),可(ke)對不同(tong)時(shi)長、寬高(gao)比和分辨率(lv)的(de)(de)視頻內容進行動(dong)態精確控制。
軌跡輸入可(ke)(ke)以是(shi)各種各樣的(de)(de)直線(xian)、曲線(xian),其具有方向,不同方向的(de)(de)多個軌跡也可(ke)(ke)以進行組合。例如,你可(ke)(ke)以用一條(tiao)S型曲線(xian)控(kong)制漂浮物的(de)(de)運(yun)動(dong)軌跡,同時用文字描述來控(kong)制它的(de)(de)運(yun)動(dong)速度(du)。下面(mian)這(zhe)個視頻中,所使用的(de)(de)提(ti)示詞用到了“緩慢”、“優(you)雅”、“輕輕”等(deng)副詞。
同(tong)一條軌跡也(ye)可以(yi)在一個軸線上反復運動(dong),生成來(lai)回搖(yao)動(dong)的畫面(mian)。
在同(tong)(tong)一(yi)張圖上,繪制不(bu)同(tong)(tong)的軌跡(ji)也可以讓Tora生(sheng)成不(bu)同(tong)(tong)運動方(fang)向(xiang)的視頻(pin)。
而基于同(tong)一個軌(gui)跡輸入,Tora會(hui)根據主體的(de)區別生成(cheng)不(bu)同(tong)的(de)運(yun)動方式。
與目前常見的(de)運(yun)動筆刷功能有所不(bu)同的(de)是,即使沒有輸入圖(tu)像(xiang),Tora也可以(yi)基(ji)于軌跡(ji)和文本的(de)組合,生成對應的(de)視頻。
例如下(xia)面這(zhe)個視頻中的(de)(de)1、3兩個視頻,就(jiu)是(shi)在沒(mei)有初始幀(zhen),只有軌跡和文(wen)字的(de)(de)情況下(xia)生成的(de)(de)。
Tora也(ye)支持首(shou)尾幀控制,不過這個案例只以圖片形式出現在論(lun)文里,沒有提供視頻演示。

▲Tora首尾幀控制
那么,只有文本、圖像兩個模態輸入的(de)(de)話,能否實(shi)現(xian)同樣的(de)(de)效果呢?帶著這個疑問,我嘗試(shi)將相同的(de)(de)初(chu)始幀和(he)提示(shi)詞輸入其他AI視頻(pin)生(sheng)成器。
下(xia)面視(shi)頻(pin)中從(cong)左到右、從(cong)上到下(xia)依次(ci)為Tora、Vidu、清影(ying)、可靈生成的視(shi)頻(pin)。可以看到,當(dang)軌(gui)跡為直線時,無軌(gui)跡輸入的視(shi)頻(pin)生成勉強還算符合需求(qiu)。
但(dan)當需(xu)要的運動軌(gui)跡變為曲線(xian),傳統的文本+圖像輸入就難以滿足需(xu)求。
二、基于OpenSora框架,創新兩種運動處理模塊
Tora采用OpenSora作為其基本模(mo)型(xing)DiT架構(gou),OpenSora是AI創(chuang)企(qi)潞晨(chen)科技(ji)設計并開源的(de)視(shi)頻生成模(mo)型(xing)框架。
為了實現基于DiT的軌跡控制視頻生成,Tora引入了兩個新型運動處理模塊:軌跡提取器(Trajectory Extractor)和運動引導融合器(Motion-guidance Fuser),用于將提(ti)供的軌跡編碼為多級(ji)時空運動(dong)補丁(motion patches)。
下圖展示了Tora的整體架構。這一方法符(fu)合DiT的可(ke)擴展性,能(neng)夠創建(jian)高分辨率、運動可(ke)控的視頻(pin),且持續時間(jian)更長。

▲Tora整體架構
其中,軌跡提取器采用3D運動VAE(變(bian)分自編碼器),將軌跡向量嵌入(ru)到與(yu)視頻補丁(video patches)相同的潛在空間中,可以有效地保留連續幀之間的運動信(xin)息,隨后使用堆疊(die)的卷積層(ceng)來提(ti)取分層(ceng)運動特(te)征。
運動引導融合器則利(li)用自(zi)適應(ying)歸一化層,將(jiang)這些多級(ji)運動(dong)條件(jian)無縫輸(shu)入(ru)到(dao)相應(ying)的DiT塊中,以確保視頻生成始終遵(zun)循(xun)定義軌跡。
為了將基于DiT的視頻生成與(yu)軌跡相(xiang)結(jie)合,作者(zhe)探索了三種融合架構的變體,將運動補丁注入到每個STDiT塊中,其中自適應范數(Adaptive Norm)展示了最佳性能。

▲運動引導融合(he)器(qi)的(de)三種(zhong)架構(gou)設計
在具(ju)體的訓練過程中,作(zuo)者針(zhen)對(dui)不同輸入條件采取了不同的訓練策略。
在軌(gui)(gui)跡訓(xun)練(lian)中,Tora使用兩階段訓(xun)練(lian)方法進(jin)行軌(gui)(gui)跡學習,第一階段從訓(xun)練(lian)視頻中提取密(mi)集(ji)光(guang)(guang)流,第二階段根據運動(dong)分段結果和(he)光(guang)(guang)流分數,從光(guang)(guang)流中隨機選(xuan)擇1到N個對象軌(gui)(gui)跡樣本(ben),最后應用高(gao)斯濾波(bo)器進(jin)行細(xi)化。
在(zai)圖像(xiang)訓(xun)練中(zhong),Tora遵循OpenSora采用(yong)的掩碼策(ce)略來支持視(shi)覺調節,在(zai)訓(xun)練過程中(zhong)隨機解鎖幀,未屏蔽幀的視(shi)頻(pin)補丁(ding)不受任何噪聲(sheng)的影響,這使得Tora能夠將文本、圖像(xiang)和軌(gui)跡無縫集成到一個統(tong)一的模(mo)型中(zhong)。
與先進的運動可(ke)控視頻生(sheng)成模型(xing)進行定(ding)量比(bi)(bi)較時(shi),隨著生(sheng)成幀(zhen)數的增加,Tora比(bi)(bi)基(ji)于UNet的方法具有越來(lai)越大的性(xing)能優(you)勢(shi),保持較高(gao)的軌跡控制(zhi)的穩定(ding)度。

▲Tora與其他(ta)可控視(shi)頻生成模型對比
例(li)如基于同一輸入,Tora生(sheng)成的(de)視(shi)頻比DragNUWA、MotionCtrl模型生(sheng)成的(de)更(geng)加平(ping)滑,對(dui)運(yun)動軌跡的(de)遵循也更(geng)準確。
三、“期貨”已兌現,阿里持續布局AI視頻
AI視頻生成(cheng)玩家們打得如火如荼,阿(a)里也一直在持續圍攻AI視頻賽道(dao)。比起(qi)Sora等主(zhu)攻視頻生成(cheng)長度和質量的(de)通(tong)用(yong)模型,阿(a)里團隊的(de)項目似(si)乎更注重于(yu)算法在不同視頻生成(cheng)形式(shi)上的(de)具(ju)體應用(yong)。
今(jin)年(nian)1月(yue),通義千問(wen)上線了“全民舞王”,憑借“兵馬俑跳科目三”出圈了一(yi)把;2月(yue),阿里發布肖像視頻(pin)生成框架EMO,一(yi)張圖就能讓照片里的(de)人開口(kou)說話。
當(dang)時智東西統計了阿里在(zai)AI視頻上的布(bu)局(ju),其在(zai)4個(ge)月(yue)內連發了至少7個(ge)新項(xiang)目(mu),覆蓋(gai)文生視頻、圖生視頻、人物跳舞、肖像說話等方向。()
如今又半年(nian)過去,EMO已經從“期貨”變成(cheng)通義App中(zhong)的“全(quan)民唱演”功能,人人可用(yong)。阿里也發布了更多AI視頻項(xiang)目。
1、AtomoVideo:高保真圖像到視頻生成
AtomoVideo發(fa)布(bu)于3月(yue)5日(ri),是(shi)一個高(gao)保真(zhen)(zhen)圖生(sheng)視頻框架,基于多粒度圖像注入和高(gao)質(zhi)量的(de)(de)(de)(de)數(shu)據集(ji)及訓練策(ce)略,能(neng)夠保持生(sheng)成視頻與給(gei)定參考圖像之間(jian)的(de)(de)(de)(de)高(gao)保真(zhen)(zhen)度,同時(shi)實(shi)現(xian)豐(feng)富(fu)的(de)(de)(de)(de)運(yun)動強度和良好的(de)(de)(de)(de)時(shi)間(jian)一致性。

▲AtomoVideo生(sheng)成(cheng)視(shi)頻(pin)效果(guo)
項目主頁://atomo-video.github.io/
2、EasyAnimate-v3:單張圖像+文本生成高分辨率長視頻
EasyAnimate是阿里在4月12日推出(chu)的(de)(de)(de)視頻(pin)(pin)(pin)生成(cheng)處(chu)理流程,并在短短3個月內迭(die)代(dai)到v3版本。它通過擴展(zhan)DiT框架引入了運動模塊,增強(qiang)了對(dui)時間動態的(de)(de)(de)捕(bu)捉能(neng)力,確保生成(cheng)視頻(pin)(pin)(pin)的(de)(de)(de)流暢性和一致性,可生成(cheng)不同分(fen)辨(bian)率6秒左(zuo)右、幀(zhen)率24fps的(de)(de)(de)視頻(pin)(pin)(pin)。

▲EasyAnimate v3生成視頻效果
項目主頁://github.com/aigc-apps/EasyAnimate
結語:AI視頻生成可控性再上一層
在AI視頻生(sheng)成時長、質量已經達(da)到一定程(cheng)度之(zhi)際(ji),如何讓生(sheng)成的(de)視頻更(geng)(geng)可控、更(geng)(geng)符(fu)合(he)需(xu)求(qiu),是當下的(de)重要(yao)命題。
在精準度、可控性(xing)和資源(yuan)利用效率(lv)等方面的持續優化下,AI視頻生成(cheng)產品的使用體(ti)驗將(jiang)迎來(lai)新的階段,價格也會更加親(qin)民,讓更多(duo)創(chuang)作(zuo)者參與進來(lai)。