智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西4月22日報道,AI視頻生成創企生數科技最新上線的全新Vidu Q1視頻大模型,同時登上多個權威文生視頻、圖生視頻基準測試榜單的第一。

該模型可支持生成1080p分辨率5秒視頻,生成效果清晰穩定,已在網頁端(Vidu.cn)、手機端上線。

相較2.0版本,Vidu Q1進一步提升了語義理解、畫質、動作、美學、逼真和絲滑程度,首尾幀銜接更加流暢,上傳兩張圖就能生成一鏡到底的自然運鏡。

性價比也相當高。一個1080p 5秒視頻價格最低1.34元,價格低至0.3元/秒,僅為同類產品的1/10

Vidu Q1的動態表現出色,能駕馭特寫、特效、微縮鏡頭,生成即可商用,適用于廣告營銷、短劇、電商、互動娛樂等場景。比如用它生成耳機、香水的廣告:

有海外網友反饋說,Vidu Q1對提示詞的遵循表現提升很多,能執行一些復雜的提示詞,比Veo2的表現更好。

這位網友曬出了用Vidu Q1做的毛氈風動畫。視頻中,小狗從虛化到清晰的聚焦轉換處理得非常自然。

Vidu Q1已拿下海外權威視頻生成評測榜單VBench-1.0和VBench-2.0綜合榜單的雙冠,分數超越Runway、Sora、Luma AI等國內外知名視頻生成模型,并在VBench-1.0的視頻質量、視頻語義一致性和VBench-2.0的常識推理、物理理解這幾個綜合維度上達到SOTA水平(即當前最先進的模型)。

同期,Vidu Q1也在國內權威通用大模型綜合性測評基準SuperCLUE最新的圖生視頻榜單中,拿下動漫風格、寫實風格雙榜單的第一。

生數科技還推出了全新AI音效功能,支持一句話生成專屬音效、精細控制每段音頻的出現時間點。

一、兩張圖實現電影級運鏡,視頻生成風格多元,多人物遮擋也不會崩

Vidu Q1首尾幀功能升級,基于兩張圖即可實現電影級運鏡。

比如上傳這兩張圖,分別作為首幀和尾幀:

輸入提示詞“女特工手持手槍,射出子彈,子彈穿破玻璃球瞬間爆炸,吉恩·科蘭的漫畫風格,緊張刺激的動畫場景”后,Vidu Q1生成的視頻效果是這樣的:

在生成電影場景方面,Vidu的畫面表現力已經接近以假亂真的水平,而且能夠對復雜語義理解到位。

例如,讓Vidu Q1按如下提示詞生成視頻:

提示詞:深夜古堡的走廊,身穿西裝的男子手持蠟燭轉身走在走廊中,兩旁的燈光忽明忽暗,緊張刺激的氛圍,推進鏡頭拍攝,鏡頭定格在男子的臉。

提示詞:寂靜的車廂里,老人抽著香煙,煙霧彌漫,車廂內的燈光忽明忽暗,鏡頭推進拍攝,推進到老人的臉部。

提示詞:鏡頭聚焦于一位身穿皮夾克的男子,他獨自行走在白天的城市街道上。陽光在人行道上投射出逼真的陰影,背景中是汽車和行人,而模糊的畫面則以電影般的照片寫實風格呈現。

在主角快速移動且存在遮擋的情景下,Vidu Q1依然能夠生成人物運動自然、穩定的視頻。

提示詞:一張黑白照片,一位優雅的黑發女子穿過人群,動作模糊,從街道拍攝,穿著現代服裝,空靈,穿越時空,電影攝影,對比,顆粒

在Vidu模型已經非常擅長的AI動漫場景,Vidu Q1繼續保持行業領先并再度升級動漫風格,支持日漫、3D動漫等多元化動漫風格,風格一致性較好,動態表現自然、穩定流暢,畫面生動。

提示詞:充滿活力的動漫風格水下場景,一個睜大眼睛的女孩,有著飄逸的水藍色雙馬尾和水手風格的校服,輕輕地懸浮在水中,伸手去夠在閃閃發光的氣泡和旋轉的光束中嬉戲游動的金橙色錦鯉魚,魔幻的氛圍,超細節,吉卜力風格的幻想,16:9 的寬高比

提示詞:一個身穿運動服的超現實動漫風格女孩,被特寫鏡頭捕捉到,她滿臉雀斑,汗流浹背,臉頰緋紅,睜大的眼睛反映出情感和好奇,對著鏡頭眨眼微笑,慢慢地把手伸向屏幕,廣角微距鏡頭拍攝,超現實的紋理與風格化的柔和相結合,充滿情感的時刻,16:9 的寬高比”

由于我們把Vidu Q1生成視頻轉換成了gif動圖格式,畫質有所壓縮。原視頻很高清,可以看到皮膚上清晰逼真的紋理和汗跡。

Vidu Q1同時支持文生視頻、圖生視頻,下方是用圖生視頻功能生成的日漫風格視頻示例。

二、AI音效功能發布:精準控制時間點,可多段音效疊加,率先支持48KHz高保真

除了上線Vidu Q1外,生數科技還推出了全新AI音效(AI Sound Effects)功能。該功能具有三個主要特點:

(1)精準Timing:可精準控制每段音效的長短區間,精準設置每段音頻出現的時間點,如0-2s風聲、3-5s雨聲,是商業領域全球首家支持精細化時間控制的文生音效系統。

(2)音效疊加:支持多段音效疊加,比如暴雨天的場景,涉及雨聲、風聲、打雷聲等多種類型聲音的混合,可以通過“音效疊加”來實現層次分明且動態變化的音效,具備影視級混音表達力。

例如用它生成鍵盤聲咖啡機的復合音效。

提示詞:{“提示”: “@{敲打鍵盤 & <0.00,8.00>}@{打印機噪聲 & <2.00,3.00>}@{咖啡機 & <4.50,5.50>}”,”開始秒數”: 0,”開始秒數”: 8.0}

(3)高采樣率音頻,高保真音質:行業大部分為16kHz、32kHz,Vidu做出了商業領域全球首家支持48KHz的文生音效系統,解決音效刺耳、壓縮失真、聲音不自然流暢等問題。

可以感受下用該功能生成的48kHz高保真蟋蟀聲、“世界毀滅”氛圍感音效:

提示詞:蟋蟀聲

提示詞:形容世界毀滅的音樂

結語:AI視頻生成進步提速,正重塑視頻制作方式

生成式AI正以前所未有的速度重塑視頻制作的方式。AI視頻生成工具的迭代升級,有望使動漫、影視、廣告、視頻剪輯、UGC創作平臺等眾多行業受益。

近年來,AI視頻生成模型的進步日新月異,從只能生成幾秒鐘的簡單視頻畫面,逐漸發展到能夠輸出更加復雜、連貫、自然的高質量視頻內容,不斷為視頻內容創作拓寬邊界和降低門檻。

從Vidu Q1的發布可以看到,準確的語義理解、擬真的表現力、角色穩定一致、強時空連貫性等特性,是當前視頻生成模型提高輸出質量的重要優化方向。

與此同時,更好用的AI視頻工具還要搭配更豐富、便利的編輯功能。

生數科技最新推出的AI音效功能可與視頻生成功能形成互補,根據視頻或場景,用一段文字即可自動生成符合氛圍、精準匹配視頻畫面的背景音樂或個性化音效,有助于減少搜索音效庫的時間,甚至減少對昂貴版權音樂的依賴。