智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣
智東西10月27日(ri)報道,10月25日(ri),美(mei)團(tuan)開源了其(qi)首款視(shi)(shi)頻生成(cheng)大模(mo)(mo)型(xing)(xing)——LongCat-Video。該模(mo)(mo)型(xing)(xing)面向多(duo)任務視(shi)(shi)頻生成(cheng)場景,旨在以統一架構(gou)支持文生視(shi)(shi)頻、圖生視(shi)(shi)頻以及(ji)視(shi)(shi)頻續寫(xie)三(san)種(zhong)能力。
不同于以往針對單一任務訓練的(de)模型,LongCat-Video通過多(duo)任務聯合(he)訓練機制,在(zai)同一框架(jia)內即(ji)可(ke)處理零幀(zhen)、單幀(zhen)及多(duo)幀(zhen)條件輸入。
此外(wai),LongCat-Video重點突破了長(chang)(chang)視(shi)頻(pin)生(sheng)成(cheng)難題(ti)。相比常見(jian)模(mo)型(xing)在長(chang)(chang)時(shi)序生(sheng)成(cheng)中易(yi)出現的畫面(mian)漂(piao)移、色(se)彩偏移等問題(ti),該模(mo)型(xing)通過在視(shi)頻(pin)續寫任務上的原生(sheng)預(yu)訓練,能夠持續生(sheng)成(cheng)數分鐘視(shi)頻(pin)內(nei)容(rong),同(tong)時(shi)保持較高的時(shi)間一(yi)致性與視(shi)覺穩定(ding)性。

在推(tui)理(li)效率(lv)方面,LongCat-Video借鑒了(le)(le)近年來(lai)的高效生(sheng)(sheng)成(cheng)方法,采用“粗(cu)到細”兩(liang)階段生(sheng)(sheng)成(cheng)策略:先生(sheng)(sheng)成(cheng)480p、15fps的視頻,再細化至720p、30fps,并(bing)結合(he)塊(kuai)稀(xi)疏注意力(li)機制和模型蒸餾,顯著降低了(le)(le)高分辨率(lv)生(sheng)(sheng)成(cheng)的計(ji)算開銷,視頻生(sheng)(sheng)成(cheng)的推(tui)理(li)速(su)度(du)提(ti)升到原來(lai)的10.1倍,提(ti)速(su)幅(fu)度(du)超900%。
在(zai)(zai)后(hou)訓練階段,團隊引入多獎勵(li)強(qiang)化(hua)學習(RLHF)優(you)化(hua)方案,利(li)用組相對策略優(you)化(hua)(GRPO)方法綜(zong)合多維(wei)度獎勵(li)信(xin)號,進(jin)一(yi)步(bu)提升模型在(zai)(zai)多樣(yang)化(hua)任務下的表現。
美團已在多項公開與(yu)(yu)內部測評中將LongCat-Video與(yu)(yu)其他視(shi)頻(pin)生成(cheng)大模型(xing)(xing)進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次于(yu)Veo3和(he)Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一(yi)項中以70.94%的得分位(wei)居所有開源(yuan)模型(xing)(xing)第一(yi),也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源(yuan)模型(xing)(xing)。

目前,美(mei)團(tuan)LongCat-Video已(yi)同步開放代碼(ma)、模(mo)型權(quan)重及關鍵模(mo)塊,模(mo)型技術報(bao)告(gao)也已(yi)經發布。
項目主頁:
//meituan-longcat.github.io/LongCat-Video/
模型地址:
//huggingface.co/meituan-longcat/LongCat-Video
技術報告:
//github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf
一、三步走打造高質量訓練數據,整體壓縮率高達4×16×16倍
美團(tuan)認(ren)為(wei),“世界模型(xing)”(World Model)已成(cheng)為(wei)通往下一代智能(neng)的核心引擎。作為(wei)能(neng)夠(gou)建模物理規律、時空演化(hua)與場景邏(luo)輯的智能(neng)系統,世界模型(xing)賦予AI“看(kan)見”世界運行本質的能(neng)力。
而視頻生成模型有望成為構建世界模型的關鍵路徑——通過視(shi)頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數(shu)字空間中模擬、推演乃至預演真實世界的運行。
為(wei)打(da)造LongCat-Video,美團(tuan)LongCat團(tuan)隊首先(xian)在數據層面(mian)構建了(le)一套(tao)數據處理與標(biao)注體系。
首先在(zai)數(shu)據(ju)預處理階段,通過多(duo)源視頻采集、去重、鏡(jing)頭切分及(ji)黑邊裁剪,確保(bao)視頻片段質量與多(duo)樣(yang)性。
隨后在數據標注(zhu)階段,為視頻添加(jia)時長、分(fen)辨率、美學(xue)分(fen)數、動態信息等多(duo)維(wei)度屬性,并建立元數據數據庫以支(zhi)持靈活數據篩(shai)選。團隊還基于LLaVA-Video與Qwen2.5VL等模型進行視頻內容、鏡(jing)頭語言及視覺風格標注(zhu),并通(tong)過中英雙語翻譯(yi)與摘(zhai)要生(sheng)成實現文本(ben)增強(qiang)。
最終,通過文(wen)本嵌入聚類對(dui)視頻內容進行無(wu)監(jian)督分類與均衡優化(hua),為模型(xing)訓(xun)練提供(gong)高質量(liang)、多樣化(hua)的視頻數(shu)據基礎。

在模(mo)型(xing)架構層面,LongCat-Video采用了(le)(le)基于Diffusion Transformer(擴散(san)Transformer)的單流三維結構,這一設計融合了(le)(le)擴散(san)模(mo)型(xing)的生成(cheng)能力與Transformer的長(chang)時序建(jian)模(mo)優勢。
每個Transformer模塊都包含三維(wei)自注(zhu)意(yi)力層、跨(kua)模態注(zhu)意(yi)力層以(yi)及帶SwiGLU激活的前(qian)饋網(wang)絡(luo),并通過RMSNorm與(yu)QKNorm保證訓練穩定性。
模型使用了3D RoPE位(wei)置編碼來捕捉(zhuo)時間(jian)與空間(jian)的信息關系,同時引入AdaLN-Zero機(ji)制以提升任務間(jian)的調制能(neng)力。
在輸入(ru)數(shu)據層面,美團團隊借助WAN2.1模(mo)型的VAE將視頻像(xiang)素(su)壓縮成潛(qian)空間token,使(shi)視頻數(shu)據能(neng)以更緊湊的形式參與(yu)建模(mo),整體壓縮率高達4×16×16倍(bei);文(wen)本輸入(ru)則由(you)umT5多(duo)語言編碼器處理,支持中英文(wen)雙語,進(jin)一(yi)步提升了模(mo)型的通(tong)用性。

二、靠“統一任務框架”一次訓出三種能力,稀疏注意力讓推理效率猛增超900%
LongCat-Video采用(yong)了三階段的(de)訓練(lian)流程(cheng)。模型以Flow Matching框架(jia)取代傳統擴散過程(cheng),通過預測噪聲到真實視(shi)頻(pin)潛變量的(de)速(su)度場提(ti)升訓練(lian)穩定性與效(xiao)率。
訓練采用(yong)漸進式預訓練策略,從低分辨(bian)率圖像到高(gao)分辨(bian)率多任務視頻(pin)逐步學習,實現“從靜態到動態”的(de)能力(li)積累,并結合尺寸桶機(ji)制優(you)化算力(li)利用(yong)。
隨后在監督微調階段,模型(xing)利用高質量、多樣化(hua)數據(ju)集進行精調,強化(hua)視(shi)覺美(mei)學(xue)、運動流暢度與指(zhi)令理(li)解。
最后通過基于組相對策略優化(hua)的強化(hua)學習引入人類偏好(hao)優化(hua),進一步提升(sheng)語義(yi)一致性(xing)與視頻質量。
在(zai)(zai)訓練LongCat-Video的過程中,美團LongCat團隊在(zai)(zai)任務(wu)設計上進行(xing)了創新,這也是LongCat-Video能在(zai)(zai)單一模型(xing)內統(tong)一文生(sheng)(sheng)視頻(pin)、圖生(sheng)(sheng)視頻(pin)和續寫(xie)視頻(pin)三(san)類任務(wu)的原因。
美團LongCat團隊沒(mei)有為不同的視(shi)頻(pin)生(sheng)成(cheng)任(ren)(ren)務單獨設計模型(xing),而(er)是通過(guo)“統一任(ren)(ren)務框架”讓三種任(ren)(ren)務共用同一套網絡(luo)。模型(xing)通過(guo)識(shi)別(bie)輸入中“條件(jian)幀(zhen)”的數量自動判斷任(ren)(ren)務類型(xing):當輸入為零幀(zhen)時(shi)執行文本生(sheng)成(cheng)視(shi)頻(pin),一幀(zhen)時(shi)執行圖像(xiang)生(sheng)成(cheng)視(shi)頻(pin),多幀(zhen)時(shi)則執行視(shi)頻(pin)續寫(xie)。
這種機制不僅(jin)大(da)幅降低(di)了(le)模型復雜度,也讓不同任務之間(jian)共享特(te)征空(kong)間(jian)與訓練(lian)經驗(yan),從(cong)而提升整體表現。
為(wei)(wei)進一(yi)步(bu)提高長(chang)視頻(pin)生(sheng)成的效率,模(mo)型在注意力機(ji)(ji)制(zhi)上設(she)計了(le)可緩存的鍵值特征,使條件幀的表示可以在采樣過程中(zhong)重復使用(yong),減少了(le)冗余(yu)計算。這種機(ji)(ji)制(zhi)尤其適合長(chang)視頻(pin)生(sheng)成,因為(wei)(wei)它(ta)能在保持(chi)一(yi)致性的同時顯著降(jiang)低計算開(kai)銷。
強化(hua)學習(xi)部(bu)分是LongCat-Video提升生(sheng)成質量(liang)的(de)關(guan)鍵環節。美團團隊基于組相對策略優化(hua)方(fang)法進行了(le)多重改進,使(shi)其(qi)適配(pei)視頻擴散任務。傳統的(de)GRPO在視頻生(sheng)成中容易出(chu)現獎勵信號不穩定(ding)和時間(jian)歸因模(mo)糊(hu)的(de)問題,團隊通過固定(ding)隨機(ji)時間(jian)步(bu)、引入(ru)再(zai)加權損失函數以及最大(da)標(biao)準(zhun)差(cha)歸一化(hua)機(ji)制(zhi),有效解決了(le)這些(xie)訓練瓶頸(jing)。

▲LongCat-Video采用的(de)GRPO方法與基線的(de)生(sheng)成效果對比
在獎勵模(mo)型設計上,LongCat-Video采用了三重(zhong)獎勵體系,分別(bie)評(ping)估視頻(pin)的視覺質(zhi)量、運(yun)動(dong)(dong)質(zhi)量和文(wen)本一(yi)致(zhi)性。視覺質(zhi)量由HPSv3模(mo)型打分,衡量畫(hua)面美感與細節;運(yun)動(dong)(dong)質(zhi)量通過VideoAlign模(mo)型評(ping)估,確保動(dong)(dong)作自(zi)然(ran)流暢;文(wen)本一(yi)致(zhi)性則檢驗生成(cheng)視頻(pin)與輸入提示語的語義(yi)契合度(du)。
這種多維(wei)度的獎勵設計讓模(mo)型在強(qiang)化學習階段能夠平衡(heng)地提升表現(xian),避(bi)免過度優化單一指標(biao)而導致(zhi)畫面僵化或(huo)運(yun)動失真。
在高(gao)效推理方面(mian),LongCat-Video通過一系列工程創新(xin)顯(xian)著提(ti)升了生(sheng)成速(su)度與分辨率。團(tuan)隊(dui)采用“粗到細”的(de)生(sheng)成策略,先快(kuai)速(su)生(sheng)成低分辨率、低幀(zhen)率的(de)視頻,再由LoRA微(wei)調的(de)精化模(mo)塊進行(xing)高(gao)清(qing)復原,最終可輸出720p、30幀(zhen)的(de)成片。
與此同(tong)時,LongCat-Video引入塊(kuai)稀疏注(zhu)意力(Block Sparse Attention)機(ji)制,僅計算(suan)(suan)最相關的10%注(zhu)意力塊(kuai),將計算(suan)(suan)成(cheng)本降至傳統方法的十分之一,幾乎不損失(shi)生成(cheng)質量。
這些優化使得LongCat-Video在單卡H800 GPU上(shang)幾分(fen)(fen)鐘內即可生成一分(fen)(fen)鐘長(chang)的(de)(de)視頻。再結合一致性(xing)模型(xing)蒸(zheng)餾與分(fen)(fen)類(lei)器自由引導(CFG)蒸(zheng)餾技(ji)術,采樣步(bu)數從傳統(tong)的(de)(de)50步(bu)縮減至16步(bu),推(tui)理效率提升至原來的(de)(de)10倍。

▲LongCat-Video在不同設置上的推理速度(du)對比
三、多領域測評比肩Veo3,常識理解能力突出
美團LongCat團隊(dui)分享了LongCat-Video的多個生成案例(li)。
文生視頻任務(wu)中(zhong),LongCat-Video可(ke)以根據提示詞準確還(huan)原不少腦洞大開的(de)畫面,下方案例還(huan)顯示出(chu)其可(ke)能具備風格轉繪的(de)能力(li)。

前段(duan)時(shi)間最火的AI視頻類型——切水果,LongCat-Video也能制作,不過并沒有音效,缺少了一些靈(ling)魂。
LongCat-Video原(yuan)生(sheng)支持輸出(chu)5分(fen)鐘級(ji)別的(de)(de)長(chang)視頻,不過在長(chang)時(shi)序的(de)(de)任(ren)務上,還是能看到一些(xie)“穿幫鏡頭”。例如,下圖人物跳芭蕾的(de)(de)過程中,其肢(zhi)體(ti)在某些(xie)大幅度動作的(de)(de)場景中顯(xian)得(de)并不自然。
有趣的是(shi),美(mei)團(tuan)分享了LongCat-Video生成(cheng)行車記(ji)錄(lu)儀畫(hua)(hua)(hua)面(mian)和機器人靈巧手操(cao)作(zuo)畫(hua)(hua)(hua)面(mian)的兩個案例。此(ci)類畫(hua)(hua)(hua)面(mian)或許(xu)可以作(zuo)為(wei)合成(cheng)數據,用于自動駕駛汽車與(yu)機器人的訓練。

在(zai)內部評測(ce)體系中,美團構建(jian)了(le)一(yi)套覆蓋(gai)文本生(sheng)成(cheng)視頻與(yu)圖(tu)像(xiang)生(sheng)成(cheng)視頻兩(liang)大(da)核心(xin)任(ren)務(wu)的基準,評估(gu)維度包括文本對齊、視覺質量(liang)、運動質量(liang)與(yu)總體表現,并在(zai)圖(tu)生(sheng)視頻任(ren)務(wu)中額外增加了(le)圖(tu)像(xiang)一(yi)致性指標。
為確保(bao)評(ping)測(ce)的(de)科(ke)學性,團隊采用人工(gong)與自動雙軌評(ping)估機(ji)制,其中人工(gong)評(ping)價(jia)分(fen)(fen)為絕對(dui)打分(fen)(fen)與相(xiang)對(dui)偏好兩種方(fang)式(shi),所有樣本均由(you)多名標注員(yuan)獨立評(ping)分(fen)(fen),最終通過(guo)加權平均得(de)出(chu)結果。
自動評測部分則由內部訓練的多模(mo)態(tai)“判官模(mo)型(xing)”完成,與人工結果的相關性高達0.92,保證(zheng)了客觀性。
評測結果顯示(shi),LongCat-Video在文生視(shi)頻(pin)任務(wu)的四個(ge)核(he)心指標中,視(shi)覺質(zhi)量(liang)得分幾乎與(yu)谷(gu)歌的Veo3持平(ping),整體質(zhi)量(liang)超越了PixVerse-V5和(he)國內領先(xian)的開源(yuan)模型Wan2.2。

在(zai)運動(dong)(dong)質量方面,LongCat-Video生成的視頻動(dong)(dong)作流暢、鏡(jing)頭移動(dong)(dong)自然,展現出較強的物(wu)理合理性。在(zai)文本對齊度上,LongCat-Video表現略(lve)差于Veo3。
在(zai)圖生視(shi)頻(pin)任務中(zhong),LongCat-Video畫面細(xi)節豐富、風格真(zhen)實,但在(zai)圖像一致性(xing)和(he)動作連貫性(xing)上仍有改進空(kong)間。技術報告(gao)認為(wei),模型在(zai)處理(li)高精度(du)(du)參考幀(zhen)時對細(xi)節的保持(chi)較為(wei)謹慎,這在(zai)視(shi)覺質(zhi)量上帶來加分(fen),卻(que)略微影響了動態平滑度(du)(du)。

在(zai)(zai)公開(kai)評測平臺VBench 2.0上,LongCat-Video在(zai)(zai)“常識理解”一項中(zhong)以70.94%的得分(fen)位居所有開(kai)源模型第一,總分(fen)達(da)到62.11%,僅次于(yu)谷歌Veo 3與生數Vidu Q1等商(shang)用閉源模型。

結語:美團探索世界模型,或與機器人、無人車業務產生協同效應
美團稱,LongCat-Video是(shi)其(qi)開發世(shi)界模(mo)型的(de)第一步。高(gao)效(xiao)的(de)長視(shi)頻生成(cheng)能解(jie)決世(shi)界模(mo)型中的(de)渲染問題,使模(mo)型能夠通(tong)過(guo)生成(cheng)的(de)視(shi)頻內(nei)容表達其(qi)對世(shi)界的(de)認(ren)知。
未來,美團計劃在視頻生(sheng)成中(zhong)更好地建模(mo)物理知識(shi),集成多(duo)(duo)模(mo)態(tai)(tai)記(ji)憶,融入大語言模(mo)型(xing)(xing)(LLM)和多(duo)(duo)模(mo)態(tai)(tai)大模(mo)型(xing)(xing)(MLLM)的(de)知識(shi)。在美團分(fen)享的(de)演(yan)示(shi)視頻中(zhong),LongCat-Video能(neng)較為準確地輸出機(ji)器人(ren)(ren)操(cao)作、汽車(che)駕駛等畫面,這(zhe)或(huo)許預示(shi)著這(zhe)款模(mo)型(xing)(xing),有望與美團在機(ji)器人(ren)(ren)、自動(dong)駕駛(無(wu)人(ren)(ren)車(che))領域(yu)的(de)業(ye)務布局產生(sheng)一定的(de)協同效(xiao)應。