智東西(公眾號:zhidxcom)
作者 | ?陳家陽
編輯 | ?漠影

智東西4月18日消息,通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B昨日宣布開源,用戶僅需上傳兩張照片作為首幀和尾幀,就能得到一段5秒720p的高清視頻。

該模型還可以開啟靈感模式,通過AI智能擴寫對視頻創意進行描述,提升畫面豐富度與表現力,從而滿足用戶更可控、更個性化的視頻生成需求。

用戶當前可以登陸通義萬相官網免費體驗新發布的首尾幀生視頻模型,也能到 Github、Hugging Face或魔搭社區(Modelscope)下載該模型進行二次開發,解鎖更多創意可能。

此外,憑借14B的參數量,該模型成為全球首個百億參數規模的開源首尾幀生視頻模型。

體驗地址:

開源地址:

1.Github:

2.Hugging Face:

3.魔搭社區:

一、細節處理、情感表達、各種運鏡,都不在話下

通義萬相在官方公眾號推文中放出了幾個新鮮的演示案例,展示出新模型出色的工作能力。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“黑暗的環境,一群人站成一列,背對鏡頭,站在一束光前,鏡頭上移,俯拍出光源全貌。”

阿里開源通義萬相2.1首尾幀生視頻模型

該模型可以真實地還原物理規律,在光源出現時,地面上的人影會隨著光束移動而發生變化。

在復雜的動態場景中,通義萬相首尾幀生視頻模型也能做到對內容細節進行高精度處理。比如女孩的衣服會隨著跑步時的肢體動作而出現褶皺、深褐色的頭發在光線影響下不時變換顏色等,讓視頻看上去更加逼真。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“寫實風格,一個身穿粉色運動服的女生在城市街道中跑步,鏡頭先特寫女生的臉部,然后記錄下女生轉過街角向前跑去的背影。”

阿里開源通義萬相2.1首尾幀生視頻模型

當生成首尾幀銜接畫面時,通義萬相首尾幀生視頻模型能夠根據不同運鏡方式對視頻場景進行豐富和完善。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“漫畫風格,黑暗中,一個男人正在看向一束光,鏡頭逐漸拉遠,展現出四周都是樓梯的環境全貌。”

阿里開源通義萬相2.1首尾幀生視頻模型

通義萬相首尾幀生視頻模型也可以滿足用戶對視頻情感表達的訴求。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“卡通風格,一個打著紅色雨傘的藍色卡通人物站在雨中。它的眼神充滿憂郁。”

阿里開源通義萬相2.1首尾幀生視頻模型

此外,通義萬相首尾幀生視頻模型可以自主優化提術語指令,幫助創作者快速生成創意視頻,降低使用門檻,使更多用戶能夠輕松生成高質量的視頻內容。

二、通義萬相2.1首尾幀生視頻模型是如何訓練的

Wan2.1系列模型均采用DiT(Diffusion in Transformer)架構,將擴散模型的生成能力與Transfomer模型的特征提取和長序列處理能力相結合,并通過VAE視頻壓縮讓視頻生成過程兼顧清晰度和工作效率。

Wan2.1還借助Full Attension機制,使得生成視頻在時間和空間上都具有很高的一致性,不會出現時間上動作跳躍、不連貫,或者空間上物體異位、形態變化不合理等情況。

阿里開源通義萬相2.1首尾幀生視頻模型

▲通義萬相模型結構圖

在Wan2.1系列模型的基礎架構上,通義萬相首尾幀生視頻模型新增了條件控制分支,以用戶上傳的首、尾幀照片作為控制條件,實現了視頻從首幀到尾幀絲滑準確的過渡效果。

此外,該模型還提取了首幀和尾幀的CLIP語義特征,并將處理結果反饋到DiT的生成過程中,保證模型生成首尾幀銜接畫面時的穩定性。

阿里開源通義萬相2.1首尾幀生視頻模型

▲通義萬相首尾幀生視頻模型架構圖

在訓練和推理階段,通義萬相首尾幀生視頻模型采用了線性噪聲軌跡的流匹配(Flow Matching)方法,用于處理噪聲和優化視頻生成過程,使高精度的視頻切片訓練成為可能。

為在有限內存下支持高清視頻推理,通義萬相首尾幀生視頻模型使用了模型切分策略和序列并行策略。通過多種優化在保證推理效果無損的同時,大幅縮短了推理時間。

通義萬相首尾幀生視頻模型的訓練過程總共經歷了三個階段,從480p分辨率下的混合任務訓練,到針對首尾幀生成能力的專項優化,最后在720p分辨率下完成高精度訓練。

結語:首尾幀生視頻模型為使用者提供更多創作自由度

相較于文生視頻和單圖生視頻,首尾幀生視頻具有更強的可控性,用戶可以自主決定開頭和結尾畫面,并通過提示詞指令對生成內容進行描述。

但這無疑提高了訓練首尾幀生視頻模型的難度,既要實現畫面從首幀到尾幀的流暢銜接,又要滿足視頻本身的質感和自然表現。

通義萬相首尾幀生視頻模型不僅可以實現對圖像細節的高精度處理,還能生成和諧自然的動作視頻,展現出了強大的技術優勢和創新性,開源后將為圖生視頻領域帶來更多價值。