智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西8月27日消息,昨夜,阿里通義萬相正式開源全新多模態視頻生成模型通義萬相Wan2.2-S2V,用戶僅需一張靜態圖片和一段音頻,即可通過該模型生成面部表情自然、口型一致、肢體動作絲滑的電影級數字人視頻

Wan2.2-S2V單次生成的視頻時長可達分鐘級,有望大幅提升數字人直播、影視制作、AI教育等行業的視頻創作效率。目前,模型已在通義萬相官網、Hugging Face和魔搭社區上線。

一張照片+一段音頻生成“電影大片”視頻!通義萬相又一重磅開源

7月28日,阿里開源視頻生成模型通義萬相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統一視頻生成Wan2.2-IT2V-5B三款模型。其中,文生視頻模型和圖生視頻模型為業界首個使用MoE架構的視頻生成模型。

8月11日,Wan2.2-I2V-Flash上線, 相比Wan2.1推理速度提升12倍,0.1元/秒,抽卡成功率提升123%。

本次發布并開源的Wan2.2-S2V則更加偏向音頻驅動,專攻圖像+音頻,讓畫面和音頻更加契合。

一張照片+一段音頻生成“電影大片”視頻!通義萬相又一重磅開源

體驗鏈接:

通義萬相官網://tongyi.aliyun.com/wanxiang/generate

阿里云百煉API://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

開源地址:

Github://github.com/Wan-Video/Wan2.2

魔搭社區://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B

Hugging Face://huggingface.co/Wan-AI/Wan2.2-S2V-14B

智東西第一時間對Wan2.2-S2V進行了體驗,發現其針對真人角色的視頻生成,口型對的很精準,手部或身體其他部分的晃動也十分自然,但在動畫角色的五官識別還不太精準,并且該模型免費版本排隊時間較長且只有一個排隊名額。

一、一張照片+一段音頻,就能讓圖片中的人物開口說話

Wan2.2-S2V可驅動真人、卡通、動物、數字人等類型圖片,并支持肖像、半身以及全身等任意畫幅,用戶上傳一段音頻后,模型就能讓圖片中的主體形象完成說話、唱歌和表演等動作。

點開Wan2.2-S2V主頁,可以看到在聊天框下方有兩個方框可以選擇模式,視頻類可以選擇“圖生視頻”“文生視頻”“視頻特效”等7個功能。

一張照片+一段音頻生成“電影大片”視頻!通義萬相又一重磅開源

我上傳了一張動畫人物“吉伊”的圖片,并輸入文字“讓畫面中的角色唱歌”:

“吉伊”不僅動了起來,連身邊的星星都跟著旋轉,還自己配上了bgm,就是嘴巴的線條沒有識別準確:

用戶如想要生成人物對嘴型的視頻,則需選擇數字人選項,上傳角色圖像。音頻可以選擇自己上傳,也可以用AI生成,AI生成的音頻需要用戶輸入想要的臺詞并選擇喜歡的聲線,目前還僅支持中文和英文。

一張照片+一段音頻生成“電影大片”視頻!通義萬相又一重磅開源

比如,讓小狗張嘴唱歌:

讓愛因斯坦張口說話:

我還上傳了一張歐美男生的人物照片和一段中文音頻:

Wan2.2-S2V生成的視頻不僅能保證人物形象和原圖一致,其面部表情和嘴部動作都能與音頻基本對齊,視頻人物臉上的光線甚至還可以隨著嘴形的變化而變化。

此外,該模型還支持文本控制,用戶輸入Prompt后可對視頻畫面進行控制,讓視頻主體的運動和背景的變化更豐富。

再比如,生成一段音樂MV:

畫面中的人物不僅可以對上口型,連手部動作和身體搖晃都在音樂的節拍上,車窗外的畫面也可以移動,模擬火車行進的真實場景。

二、歷史參考幀擴展至73幀,還支持不同分辨率

基于通義萬相視頻生成基礎模型能力,Wan2.2-S2V融合了文本引導的全局運動控制和音頻驅動的細粒度局部運動,實現了復雜場景的音頻驅動視頻生成。

同時該模型還引入AdaIN和CrossAttention兩種控制機制,實現了更準確更動態的音頻控制效果。

為保障長視頻生成效果,Wan2.2-S2V通過層次化幀壓縮技術,將motion frames(歷史參考幀)的長度從數幀拓展到73幀,從而實現了穩定的長視頻生成效果。

Wan2.2-S2V還可支持不同分辨率場景的視頻生成需求, 如豎屏短視頻、橫屏影視劇。

結語:產業需求推動AI生成視頻的技術迭代

文生視頻、圖生視頻賽道真是太卷了。

無論是國內的即夢AI、MiniMax、昆侖萬維等,還是國外的Runway、Midjouney等,都在視頻生成類大模型上猛下功夫。

就拿通義萬相來說,自今年2月以來,通義萬相已連續開源文生視頻、圖生視頻、首尾幀生視頻、全能編輯、音頻驅動生視頻等多款模型。

當前,數字人直播、影視制作、AI教育等行業對高效視頻創作工具的需求日益廣泛。

這種旺盛的產業需求,正成為推動視頻生成類大模型技術快速迭代的核心動力,也為賽道未來的發展提供了廣闊空間。