智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 漠影
智東西9月24日杭州報道,今天,在2025杭州云棲大會上,阿里一口氣發布了7款大模型,其中重磅推出的通義萬相Wan2.5-preview,首次實現音畫一體視頻生成等功能,成為阿里迄今為止最強的全模態視覺生成大模型。
阿里云智能集團首席技術官、通義實驗室負責人周靖人在會上談道,通義萬相Wan2.5-preview視頻生成模型首次采用原生多模態架構,涵蓋文生視頻、圖生視頻、文生圖和圖像編輯四大模型,邁入電影級全感官敘事時代。

智東西第一時間對該模型進行體驗,發現Wan2.5-preview具備超出想象的文本理解和推理能力,并且生成的語音能夠精準匹配人物嘴型。
比如,下面這個有聲視頻是僅輸入一段文字后Wan2.5-preview一次性生成的。不得不說,國產視頻生成模型真的已經是Next level了。
▲Wan2.5-preview生成的視頻
當下,市面上同類模型已有一些支持“圖+音頻”驅動生成視頻,Wan2.5-preview在輸入側全面支持圖、文、音或組合形式,有望降低使用門檻,在數字人、電影創作、遠程教育等多個領域都有想象空間。
阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘說,大模型將是下一代的操作系統。而隨著計劃中的世界模型之后面世,通義萬相也有望成為AI視頻領域的操作系統,將允許任何人用自然語言,創造無限多的視頻內容及相關應用。
即日起,用戶可在阿里云百煉平臺調用API,或在通義萬相官網直接體驗。
通義萬相官網體驗地址:
//tongyi.aliyun.com/wanxiang/generate
阿里云百煉API:
//bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
一、首次實現高清有聲視頻一鍵生成,背后原生多模態架構亮了
本次,Wan2.5-Preview全面提升了視頻生成、圖像生成、圖像編輯三大核心能力,并且首次原生支持音畫同步。
聚焦大家尤為關注的視頻生成方面,Wan2.5-preview在時長、畫質、操控、多模態等多個方面都實現 顯著升級:
1、更長時長。Wan2.5-Preview視頻生成時長從5秒提升至10秒,單次生成可實現更完整的劇情故事。
2、更清晰畫質。Wan2.5-Preview支持24幀每秒的1080P高清視頻生成,滿足電影級場景的創作需求。
3、更強操控。Wan2.5-Preview模型指令遵循能力進一步提升,視頻生成可理解運鏡等復雜指令,可實現一鍵人物變身等圖像編輯任務。
4、音畫同步生成。Wan2.5-Preview支持文本、圖像、視頻、音頻幾乎全模態的輸入和輸出,視頻生成告別“啞劇”時代。

背后,靖人透露,Wan2.5-Preview在技術架構上實現了重大更新——首次采用原生多模態架構——在國內第一個將聲音、圖像、文本作為語料去做模型訓練,從而實現同一套框架下支持理解和生成等多種任務。
這代表了技術演進的一個更高階段。相比于非原生架構帶來的信息損耗、誤差累計、多模交互弱等局限,原生多模態架構如同精通多學科的“通才”,能夠涌現出更強的跨模態推理及生成能力。
比如,基于原生多模態架構的Wan2.5-Preview能夠實現更具創造性的生成,更深刻地理解抽象語義并將其轉化為視覺元素,其可以根據一段復雜的、充滿比喻的詩歌,生成一幅意境匹配的圖片。
在圖像生成方面,Wan2.5-Preview在美學質感、穩定文字生成、圖表直接生成、指令遵循等方面全面升級;此外,該模型在圖像編輯能力上,還支持豐富指令編輯任務,可以保持視覺元素ID一致性。
二、音畫同步、復雜運鏡效果驚艷,谷歌Veo 3不香了?
再來看看具體案例效果,用戶只需要在對話框中輸入提示詞,Wan2.5-preview就能生成對應的畫面,并生成精準匹配的人聲、環境音效和背景音樂等多種聲音。
同時,Wan2.5-preview也支持輸入一段音頻作為參考,來驅動文字或圖片生成音畫同步的視頻。此外,Wan2.5-preview在圖片編輯、文生圖體驗上也更加穩定。
從以下比較有代表性的案例,我們能直觀看到Wan2.5-Preview的生成效果。
1、從電影情節到產品播報,生成人聲精準匹配視頻
如下所示,當輸入以下一個圍繞“白人女性拆開禮物”的提示詞,Wan2.5-Preview就能生成以下栩栩如生的視頻,不僅光影和人物的表情細節非常逼真,提示詞要求的鋼琴聲和女聲也比較準確。
提示詞1:
暖色調,日光,柔光,側光,來自窗戶的自然光線,近景特寫鏡頭,中心構圖。一位年輕的外國白人女性坐在客廳地毯上,淺棕色長發垂肩,臉上帶著溫暖微笑,眼神明亮,雙手正緩緩打開一個帶有白色圓點圖案的深棕色禮物盒。她的動作輕柔,指尖微微顫動,流露出期待與驚喜。盒子開啟瞬間,內部閃出微弱反光,映在她的眼眸中。背景中一棵高大的圣誕樹裝飾著彩色小燈、金色鈴鐺和紅色絲帶,樹下堆滿包裝精美的禮物盒,壁爐上方懸掛著編織花環,窗簾半開,透入清晨柔和日光。伴隨輕微的紙張摩擦聲和遠處隱約傳來的鋼琴版《Jingle Bells》旋律,她輕聲說道:“Oh, this is perfect… thank you so much.” 室內環境音包含木柴燃燒的噼啪聲與窗外輕柔風聲。
再來看看更復雜的多人物互動,當輸入圍繞“新郎向新娘求婚”的提示詞,Wan2.5-Preview也能比較精準地生成婚禮情境和兩人的互動,具有大片般美感,婚禮進行曲和新郎的話匹配較為準確。
提示詞2:
紀實攝影風格,中景,日光,柔光,側光,暖色調,中心構圖。鏡頭平拍一位外國新郎的半身,他身穿剪裁合體的黑色西裝,打著深色領帶,胸前別著一朵鮮艷的紅色玫瑰胸花。他約三十歲,淺棕色短發整齊梳理,藍色眼眸含笑,嘴角上揚,露出溫柔而真摯的笑容。他正緩緩將一枚戒指套入新娘的手指,動作輕柔專注。新娘的手纖細白皙,戴著蕾絲手套,指尖微微顫動,頭紗由微風輕輕掀起一角,薄紗隨氣流飄動。背景為白色石墻,墻上裝飾著藤蔓綠植與白色玫瑰花束,陽光從左側窗戶斜射入內,形成柔和的側光光影,照亮兩人交握的手與臉龐。伴隨著婚禮進行曲的輕柔小提琴旋律,新郎低聲說道:“I now pronounce you my forever.” 背景可聽見遠處賓客的輕微低語與鳥鳴聲。
Wan2.5-Preview同樣支持以“圖+音+文”為輸入進行視頻生成,這樣提示詞文本可以寫得更簡潔一點。如下所示,即使是極快語速的Rap,Wan2.5-Preview也能將人的口型和聲音匹配得看不出破綻。
提示詞3:
在一個充滿未來感的虛擬現實游戲世界,一位玩家戴著VR頭盔和動作捕捉服,站在一個巨大的、由代碼和像素流構成的競技場中央。他以極快的語速念出這段RAP:“萬相出手就是未來代碼,聲波穿透屏幕像魔法,音畫同步從來不跳閘,節奏踩著像素坐標,精準指令像開外掛”。電影感光線,超高細節。音頻部分只有由rap構成。

輸入“圖+文”提示詞也是常見的場景,如下所示,Wan2.5-Preview能夠憑借強大的多模態推理能力,創作出圖片中原本沒有的虎鯊背鰭,并生成深海低頻嗡鳴、聲吶掃描音、水流動響等多種逼真的聲音。
提示詞4:
一名身穿黑色潛水服、佩戴全臉面罩的男性特工在水下緩慢下潛,右手拇指持續按壓BC閥。他身體略微前傾,頭部隨手電光束方向轉動,光束掃過前方,顯現出尸骸碎骨,骨骼在水流中輕微晃動。聲吶綠波以每秒2米的速度從遠處向近處推進,穿過水體并產生漣漪狀擾動。虎鯊背鰭從畫面上方切入光柱,垂直向下移動后消失。特工嘴唇開合,說出:’太危險了’,語氣緊繃克制,語速短促,音色因氦氧混合氣震顫泛出金屬質感。4℃海水使氣泡迅速壓縮變形,呈扁平狀上升并破裂。背景持續傳來深海低頻嗡鳴、聲吶掃描音、水流動響、氣泡爆裂聲及呼吸器震顫聲。

2、從跑馬到拍擊網球,模擬真實世界的音效為視頻增色
真實世界的聲音賦予視頻更強的沖擊力。除了人聲匹配精準,Wan2.5-Preview能夠在視頻中生成貼合場景的音效。
如下所示,當圍繞“騎士騎馬運動”輸入一段提示詞,Wan2.5-Preview不僅能夠生成極具動感的視頻內容,馬匹和運動員的騰空瞬間精準捕捉,且所提出的馬蹄落地聲、遠處裁判哨音與微弱風聲也能夠明顯聽到。
提示詞1:
紀實體育攝影風格,中景運動鏡頭,日光,晴天光,側光,暖色調,中心構圖。一位年輕男性現代五項運動員身著筆挺的白色騎士服,佩戴黑色頭盔,騎在一匹肌肉緊實的棕色駿馬上,在戶外草地上全力沖刺。馬兒前躍至空中最高點,四蹄離地,后腿蹬直,前腿高抬,跨越一道木質障礙欄桿,動作流暢有力。運動員身體前傾,韁繩緊握,目光專注前方,姿態穩定。背景為廣袤綠草地,藍色天空飄著薄云,遠處樹木隨風輕晃,陽光從側面斜照,勾勒出人馬輪廓的明亮邊緣。伴隨清脆的馬蹄落地聲、遠處裁判哨音與微弱風聲,鏡頭全程跟拍,完整記錄騰空瞬間。4K高清畫質,動作清晰連貫。
下面的例子是圍繞“女子打網球”輸入的提示詞,網球撞擊球網的聲音、遠處隱約的觀眾低語讓人很難相信這是AI生成的。
提示詞2:
平拍中景,日光,晴天光,側光,暖色調,中心構圖。一位白人女子身著簡潔的白色網球服,頸部佩戴一條細長的銀色項鏈,耳垂上閃爍著小巧的鉆石耳環,深棕色頭發高高扎成馬尾,發絲隨動作輕揚。她雙手緊握網球拍,身體前傾,膝蓋微屈,右臂迅速向后引拍,隨即向前上方猛烈揮動,球拍擊中黃色網球瞬間,發出清脆的“砰”聲,球以高速飛向畫外。她的面部肌肉緊繃,眼神鎖定球路,嘴角微微下壓,展現出專注神情。背景為淺藍色幕布,其上印有白色英文字母“CHAMPION SERIES”,邊緣略微虛化。天空呈現均勻的湛藍,無云,陽光從右側斜射,在地面投出清晰影子。伴隨擊球節奏,可聽見球拍破風聲、球與拍面撞擊聲及遠處隱約的觀眾低語。
3、深度理解描述意境,生成高匹配度背景音樂
生成背景音樂也是我們日常創作常見的場景,如下所示,當輸入以下圍繞“為跳舞的黑人女子配上背景音”的提示詞,Wan2.5-Preview能夠成功生成節奏鮮明的背景樂,深度理解了這一嘻哈的場景風格。
提示詞1:
紀實攝影風格,自然光,晴天日光從側上方灑落,暖色調,全景,中心構圖,平拍鏡頭。畫面中,一位身材高挑的外國黑人女性站在城市街道中央跳舞,她約三十歲,皮膚黝黑,笑容燦爛,牙齒潔白,編成數十條細密辮子的黑發隨動作輕輕擺動。她身穿亮紫色寬松短袖上衣和黑色高腰短褲,腳踩白色運動鞋,雙臂向上伸展后緩緩劃弧, hips左右輕搖,腳步在地面踏出節奏感強烈的律動,仿佛正隨著街頭播放的節拍起舞。鏡頭緩緩后拉,展現她周圍環境:寬闊的瀝青街道兩旁矗立著玻璃幕墻的現代建筑,銀灰色路燈筆直延伸,行人穿行其間,有的駐足觀看,有的邊走邊點頭打拍子,背景傳來輕快的嘻哈音樂節奏。緊接著,鏡頭切換至另一位外國黑人男性舞者,同樣全景平拍,他約三十五歲,戴黑色細框眼鏡,穿著淺灰色修身襯衫和黑色長褲,領口微開,神情專注,正在以流暢的身體波浪動作配合腳步滑行。他左手輕抬引導動勢,右腿后撤點地,肩部與手臂逐節起伏,展現出極強的控制力。背景音為節奏鮮明的鼓點與貝斯旋律,夾雜著遠處車輛駛過的聲音、人群低語聲和偶爾的掌聲。
總的來看,Wan2.5-preview在此前Wan2.2的基礎上,不僅提升了視覺生成的清晰度和運動效果,還將聲音這一新的維度融合進來,讓視頻與音頻生成能夠一步到位。
我們也發現,要用Wan2.5-preview生成更加符合需求的視頻,還需要將提示詞描述得更加詳細和準確,這樣生成的內容才會更加精準。同時,當生成時長、清晰度需求提升,需要等待的時間也變長,有時生成的視頻也會出現漏信息、少聲音的情況,這都表明模型仍有進步空間。
結語: 通義萬相,阿里被低估的AI殺手锏
時至今日,通義萬相可能是最被低估的阿里大模型。
在大語言模型和視覺大模型模型這兩條路線上,阿里的通義千問系列大語言模型已經占據全球開源大模型的頭把交椅,通義萬相視覺模型也正迅猛發展,在視覺多模態這一更具挑戰的領域高歌猛進,祭出全模態模型、世界模型(待發布)等一個又一個頂尖成果。
隨著2023年OpenAI的Sora在全球爆火,阿里通義萬相大模型成為“國產Sora”的代表。2025年2月,通義萬相Wan2.1正式開源,這款性能趕超Sora的大模型由此可以被全球各地的人下載使用;今年5月,通義萬相Wan2.2開源,業界首個使用MoE架構,節省近一半計算資源的情況下達到電影級視頻生成效果。
如今,最新發布的通義萬相Wan2.5-preview已經實現了音畫文全模態交互,向一個“大一統”的模型又進了一步。
量變正引起質變。阿里公布的一組官方數據顯示:通義萬相模型家族已支持文生圖、文生視頻、圖生視頻、人聲生視頻和動作生成等10多種視覺創作能力,累計生成3.9億張圖片、7000萬個視頻,成為中國調用量最大的視覺生成模型之一。
更重要的是開源領域的開花結果。自今年2月以來,通義萬相已連續開源20多款模型,在開源社區和三方平臺的下載量已超3000萬,是開源社區最受歡迎的視頻生成模型之一。
下一步,隨著通義萬相世界模型的面世,阿里大模型的版圖將再升一個維度,勢必在產業掀起新的技術潮流。