国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

綁定手機號

確認綁定

歡迎來智東西

登錄

免費注冊

關注我們

智東西

車東西

芯東西

智猩猩

智東西

芯東西

線下大會

AI生產力創新獎

標簽

更多

百度蘋果谷歌 iPhone 高通小米大眾通用微軟騰訊英特爾 5G 360 三星特斯拉華為 IDx

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

智東西AI前瞻（公眾號：zhidxcomAI）
作者 | 江宇
編輯 | 漠影

智東西8月21日報道，今日，百度正式發布百度蒸汽機2.0大模型，是全球首個支持中文音視頻一體化生成的大模型。在原有圖生視頻能力基礎上，本次新增“有聲版”，具備支持環境音效、人聲對白及嘴型同步能力，支持畫面與聲音的同步生成。

蒸汽機2.0具備“形神音容”一體化生成能力，將原本需要分別完成的三個步驟——視頻畫面、配音效與對白同步，整合為一次生成完成，也被形容為“三步并一步”。

價格方面，蒸汽機Turbo有聲版定價為1.4元/5秒，據百度蒸汽機透露，這一價格大約是行業平均成本的七成。

一、從“靜音圖像”到“全聲動態”，蒸汽機強化鏡頭語言與聲音整合

相比傳統視頻生成流程需逐步完成圖像、音效、對白等環節，百度此次發布的蒸汽機“有聲版”模型嘗試將這些過程整合至單一模型內完成。

該模型還引入了更復雜的鏡頭語言，包括“繞鏡”等動態運鏡方式，同時配合大規模提示詞理解能力的升級，使得用戶即便輸入較為簡短的自然語言，也能生成畫面流暢、鏡頭調度自然的視頻內容。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

同時，在聲音方面，蒸汽機模型不僅同步生成環境聲與人聲，還嘗試做到人物動作與唇形的匹配。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態生成任務，背后由“多模態潛在空間規劃”機制支持，能在建模階段統一安排角色身份、語氣、對話內容與視覺呈現，使得成片更具整體感與敘事一致性。

此外，百度也強調了中文場景的適配能力，包括中文發音結構的唇形匹配、語境識別與本地化音色模擬，在中文語境下具備更高擬真度。

二、體驗：畫面風格不同，聲音能力初步開放

智東西上手體驗了百度蒸汽機2.0視頻模型的四個版本，分別對應不同的生成能力側重。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

1、蒸汽機2.0 Turbo（標準基礎款）：沖浪者與巨浪共舞

這段效果很好，陽光透過海浪的光感很自然，畫面層次感強。沖浪者的動作也很順暢，整體看不太出是AI生成的，挺接近實拍的質感。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

2、蒸汽機2.0 Pro（精準響應，畫質清晰）：海底世界的美麗魚群

魚群游動的畫面非常逼真，魚鰓這些細節都保留得不錯，海底的珊瑚也非常統一，視覺上挺舒服的。就是偶爾幾幀里，魚尾有點失真。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

3、蒸汽機2.0 Lite（創意簡單表達，極速生成）：雨夜霓虹，城市漫步

前景的行人走路還算自然，但背景里有些人動作有點僵硬，甚至還有“瞬間消失”的Bug。不過雨夜氛圍保留得不錯，水塘里的雨滴、霓虹倒影這些細節挺到位的，整體畫面觀感還行。

一句話，讓黑神話鐘馗開口說話！體驗百度蒸汽機2.0的音畫同步，口型還能對得上嗎？

4、蒸汽機2.0 有聲版（支持音效生成）：鐘馗出場

本次體驗首幀圖選用了游戲科學最新發布的《黑神話·鐘馗》預告片中的一幕。智東西嘗試了三個不同提示詞的生成結果，人物形象沒問題，老虎的形象也挺還原，背景音效基本跟提示詞能對上。

比較有意思的是，起初的兩次嘗試，“怒吼”這個關鍵詞在兩段視頻中被模型理解成了不同的主體：一段是鐘馗怒吼，一段則是老虎發聲。而提示詞中提到的“倒吸涼氣”聲效未響應，不過背景音的氛圍感呈現尚可。

在第三次調整提示詞后，鐘馗的臺詞得到了較準確的還原，音色、語氣與人物形象較為契合，嘴型同步效果也很清晰，聲音生成與畫面銜接更為自然。

提示詞1：需背景音。主體（虎背上的鐘馗）低頭靜止，緩慢抬頭，抬頭瞬間，背后有兩三人傳出倒吸涼氣的害怕聲。同時，坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣，整體氛圍壓抑、肅殺。

提示詞2：需背景音。主體低頭靜止，緩慢抬頭，抬頭瞬間，背后有兩三人傳出倒吸涼氣的害怕聲。同時，坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣，整體氛圍壓抑、肅殺。

提示詞3：需背景音。主體為騎在虎背上的鐘馗，初始低頭靜止，隨后緩慢抬頭。在抬頭至目視前方的瞬間，鐘馗開口喊道：“罰惡司——鐘馗！”聲音洪亮、有氣勢。陰雨天氣，氛圍壓抑肅殺。

結語：一體化生成已站穩，表現仍需持續打磨

百度此次將“畫面、音效、對白”打包生成，仍具一定標志性。相比早期“靜音片段+后期配音”的做法，如今一體化生成的路徑的確更省力也更直觀。

但從當前體驗來看，聲音生成的準確性與口型協調仍存在一定差距，尤其在多角色對話、強調動作與臺詞同步的場景下，模型的時序控制還未完全成熟。不過，整體上百度蒸汽機在“形神音容”一體化生成方向上，邁出了可見的一步。

百度

來, 說兩句

相關推薦

加載更多...

?

訂閱

智東西晚報通過智東西Pro服務號每天定時推送一次訂閱，不錯過每天行業重磅信息

掃碼關注，立即訂閱

<tr id='fbq9e'><strong id='fbq9e'></strong><small id='fbq9e'></small><button id='fbq9e'></button><li id='fbq9e'><noscript id='fbq9e'><big id='fbq9e'></big><dt id='fbq9e'></dt></noscript></li></tr><ol id='fbq9e'><option id='fbq9e'><table id='fbq9e'><blockquote id='fbq9e'><tbody id='fbq9e'></tbody></blockquote></table></option></ol><u id='fbq9e'></u><kbd id='fbq9e'><kbd id='fbq9e'></kbd></kbd>

<code id='fbq9e'><strong id='fbq9e'></strong></code>

<fieldset id='fbq9e'></fieldset>

<span id='fbq9e'></span>

<ins id='fbq9e'></ins>

<acronym id='fbq9e'><em id='fbq9e'></em><td id='fbq9e'><div id='fbq9e'></div></td></acronym><address id='fbq9e'><big id='fbq9e'><big id='fbq9e'></big><legend id='fbq9e'></legend></big></address>

<i id='fbq9e'><div id='fbq9e'><ins id='fbq9e'></ins></div></i>

<i id='fbq9e'></i>