智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影

智東西8月21日報道,今日,百度正式發布百度蒸汽機2.0大模型,是全球首個支持中文音視頻一體化生成的大模型。在原有圖生視頻能力基礎上,本次新增“有聲版”,具備支持環境音效、人聲對白及嘴型同步能力,支持畫面與聲音的同步生成。

蒸汽機2.0具備“形神音容”一體化生成能力,將原本需要分別完成的三個步驟——視頻畫面、配音效與對白同步,整合為一次生成完成,也被形容為“三步并一步”。

價格方面,蒸汽機Turbo有聲版定價為1.4元/5秒,據百度蒸汽機透露,這一價格大約是行業平均成本的七成

一、從“靜音圖像”到“全聲動態”,蒸汽機強化鏡頭語言與聲音整合

相比傳統視頻生成流程需逐步完成圖像、音效、對白等環節,百度此次發布的蒸汽機“有聲版”模型嘗試將這些過程整合至單一模型內完成。

該模型還引入了更復雜的鏡頭語言,包括“繞鏡”等動態運鏡方式,同時配合大規模提示詞理解能力的升級,使得用戶即便輸入較為簡短的自然語言,也能生成畫面流暢、鏡頭調度自然的視頻內容。

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

同時,在聲音方面,蒸汽機模型不僅同步生成環境聲與人聲,還嘗試做到人物動作與唇形的匹配

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態生成任務,背后由“多模態潛在空間規劃”機制支持,能在建模階段統一安排角色身份、語氣、對話內容與視覺呈現,使得成片更具整體感與敘事一致性。

此外,百度也強調了中文場景的適配能力,包括中文發音結構的唇形匹配、語境識別與本地化音色模擬,在中文語境下具備更高擬真度。

二、體驗:畫面風格不同,聲音能力初步開放

智東西上手體驗了百度蒸汽機2.0視頻模型的四個版本,分別對應不同的生成能力側重。

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

1、蒸汽機2.0 Turbo(標準基礎款):沖浪者與巨浪共舞

這段效果很好,陽光透過海浪的光感很自然,畫面層次感強。沖浪者的動作也很順暢,整體看不太出是AI生成的,挺接近實拍的質感。

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

2、蒸汽機2.0 Pro(精準響應,畫質清晰):海底世界的美麗魚群

魚群游動的畫面非常逼真,魚鰓這些細節都保留得不錯,海底的珊瑚也非常統一,視覺上挺舒服的。就是偶爾幾幀里,魚尾有點失真。

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

3、蒸汽機2.0 Lite(創意簡單表達,極速生成):雨夜霓虹,城市漫步

前景的行人走路還算自然,但背景里有些人動作有點僵硬,甚至還有“瞬間消失”的Bug。不過雨夜氛圍保留得不錯,水塘里的雨滴、霓虹倒影這些細節挺到位的,整體畫面觀感還行。

一句話,讓黑神話鐘馗開口說話!體驗百度蒸汽機2.0的音畫同步,口型還能對得上嗎?

4、蒸汽機2.0 有聲版(支持音效生成):鐘馗出場

本次體驗首幀圖選用了游戲科學最新發布的《黑神話·鐘馗》預告片中的一幕。智東西嘗試了三個不同提示詞的生成結果,人物形象沒問題,老虎的形象也挺還原,背景音效基本跟提示詞能對上。

比較有意思的是,起初的兩次嘗試,“怒吼”這個關鍵詞在兩段視頻中被模型理解成了不同的主體:一段是鐘馗怒吼,一段則是老虎發聲。而提示詞中提到的“倒吸涼氣”聲效未響應,不過背景音的氛圍感呈現尚可。

在第三次調整提示詞后,鐘馗的臺詞得到了較準確的還原,音色、語氣與人物形象較為契合,嘴型同步效果也很清晰,聲音生成與畫面銜接更為自然。

提示詞1:需背景音。主體(虎背上的鐘馗)低頭靜止,緩慢抬頭,抬頭瞬間,背后有兩三人傳出倒吸涼氣的害怕聲。同時,坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣,整體氛圍壓抑、肅殺。

提示詞2:需背景音。主體低頭靜止,緩慢抬頭,抬頭瞬間,背后有兩三人傳出倒吸涼氣的害怕聲。同時,坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣,整體氛圍壓抑、肅殺。

提示詞3:需背景音。主體為騎在虎背上的鐘馗,初始低頭靜止,隨后緩慢抬頭。在抬頭至目視前方的瞬間,鐘馗開口喊道:“罰惡司——鐘馗!”聲音洪亮、有氣勢。陰雨天氣,氛圍壓抑肅殺。

結語:一體化生成已站穩,表現仍需持續打磨

百度此次將“畫面、音效、對白”打包生成,仍具一定標志性。相比早期“靜音片段+后期配音”的做法,如今一體化生成的路徑的確更省力也更直觀。

但從當前體驗來看,聲音生成的準確性與口型協調仍存在一定差距,尤其在多角色對話、強調動作與臺詞同步的場景下,模型的時序控制還未完全成熟。不過,整體上百度蒸汽機在“形神音容”一體化生成方向上,邁出了可見的一步。