智東西(公眾號:zhidxcom)
作者 | ZeR0 程茜
編輯 | 漠影

掀(xian)起視頻大模型風暴的Sora,終于正(zheng)式(shi)發(fa)布!

智東西12月10日報道,今日凌晨,OpenAI推出文生視頻模型Sora的新版本Sora Turbo,稱其比2月預覽的(de)Sora模型快得(de)多。

Sora可生成最高1080p分辨率、最長20秒16:9 / 1:1 / 9:16 畫面(mian)比例(li)的視(shi)頻,支(zhi)持用(yong)戶輸入(ru)文(wen)字或上傳圖像,并上線全新(xin)UI界面(mian),以便對生(sheng)成視(shi)頻進行修改、創建、擴展(zhan)、循環、混合,或用(yong)文(wen)本生(sheng)成全新(xin)的內(nei)容。

OpenAI在Sora.com上發布一個獨立產品,免費(fei)提供給ChatGPT Plus和Pro用戶。

Plus用戶每月最多可以生成50個480p分辨率視頻,或更少的720p分辨率、5秒視頻,對應月費20美元(折合人民幣145元)。

Pro訂閱者則最多可生成500個視頻,并支持20秒時長、1080p分(fen)辨(bian)率,可下(xia)載無水印(yin)版視頻,對應月費200美(mei)元(折合人民(min)幣1450元)。

平攤下來生(sheng)成一個視頻花2.9元。

ChatGPT Plus和Pro每月分別為用戶提供1000和10000積(ji)分。其中480p視頻(pin)(pin)需要(yao)(yao)20-150個積(ji)分,720p視頻(pin)(pin)需要(yao)(yao)30-540個積(ji)分,1080p視頻(pin)(pin)需要(yao)(yao)100-2000個積(ji)分。Pro用戶則(ze)享受無(wu)限量的relaxed視頻(pin)(pin)。

OpenAI正在為不同類(lei)型的用(yong)戶制定不同定價,計劃(hua)于(yu)明年初推出。

Sora一發(fa)布(bu),ChatGPT氪金黨(dang)們立即瘋(feng)玩起來,紛紛在社交平臺上曬出(chu)自(zi)己的第一個(ge)Sora生(sheng)成視頻大作。

例如下面這個新聞播報視頻,雖然最終生成的視頻中有一堆亂碼文本,但視頻畫面切換的節點(dian)、文(wen)字滾(gun)動條、新聞風格鏡(jing)頭……這(zhe)些(xie)都是Sora自主(zhu)完成的,并且新聞主(zhu)播的形象也十分逼真。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有此前體驗許久的藝術家,直接用Sora生成了一個1分38秒的MV

不過有網友發現,同為付費用戶,ChatGPT Plus并不能生成帶有人物的視頻,只有ChatGPT Pro才可以

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

服(fu)務器很快就(jiu)火爆(bao)到進不去了。

OpenAI聯合創始人兼CEO Sam Altman轉發(fa)了Sora團(tuan)隊技(ji)術(shu)人員(yuan)關于注冊(ce)被禁用(yong)的帖(tie)子:“需求高于預期,注冊(ce)將(jiang)被禁用(yong),生成(cheng)將(jiang)在一段時間內變慢。盡力而(er)為。”

他還抽空發文(wen)恭喜谷歌剛剛發布的(de)量子(zi)計算芯片Willow。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺▲阿(a)爾特曼回應(ying)Sora注冊被暫時禁用

一、Sora專屬頁面上線:預設風格、多種選項、社區分享

OpenAI開發了新的界(jie)面,以便更輕(qing)松(song)地(di)使用文本(ben)、圖像和視頻提示Sora。

頁面(mian)下方有輸(shu)入(ru)框,可以輸(shu)入(ru)想(xiang)要生(sheng)成視頻的文(wen)字描(miao)述,并提供“預(yu)設(she)”、“屏幕比(bi)例”、“分辨率”、“時長”、“變體”等選項。如果鼠標(biao)移到“?”圖標(biao),會顯示生(sheng)成視頻所需消(xiao)耗(hao)的積(ji)分值。

畫面比例可選16:9、1:1、9:16。分辨率可選1080p(慢(man)8倍)、720p(慢(man)4倍)、480p(最(zui)快(kuai))。時長(chang)可選20秒、15秒、10秒、5秒。一次可生(sheng)成(cheng)1個(ge)(ge)、2個(ge)(ge)或4個(ge)(ge)視頻(pin)變(bian)體。

預設有6個選項。

點擊“Create”即可(ke)創(chuang)建視頻(pin)。

打開每個(ge)視(shi)頻,底部還能(neng)進一步編輯提示(shi)詞、觀看故事、Re-cut(重剪(jian)輯)、Remix(基于此修改或創建新視(shi)頻)、Blend(兩個(ge)視(shi)頻無縫過渡)和Loop(無縫循(xun)環播放(fang))。

頁(ye)面右上(shang)角有(you)“喜歡(huan)”、“分享”、“下(xia)載”等選項。

OpenAI還(huan)提供精選(xuan)和(he)最新動態,不(bu)斷更新社(she)區的(de)創作(zuo)。點擊頁(ye)面左側Featured,可看到分享的(de)作(zuo)品。

點擊頁(ye)面右上方(fang)賬(zhang)戶(hu),可以看到視(shi)頻(pin)教(jiao)程。

二、畫面元素絲滑替換,逐幀分鏡頭講故事超便捷

具體來(lai)看看Sora不同功(gong)能(neng)的(de)效果。

1、Remix:替換、刪除或重構視頻中的元素

你可以輸入指令,要求Sora生成的視頻反復修改畫面元素。有“強”、“中”、“微”、“定制”四種Remix強度選項。

比如(ru)把(ba)視頻畫面(mian)中的“猛犸(ma)象換成機器人”:

再比如生(sheng)成(cheng)“打開(kai)通往(wang)圖書(shu)館(guan)的大門”的視(shi)頻:

然后“把(ba)門(men)(men)換成法式門(men)(men)”:

“把(ba)圖書館變成一艘宇宙(zhou)飛船”:

“移除宇宙(zhou)飛船,添加叢林”:

“把叢林換(huan)成月球景觀”:

2、Re-cut:找到你最滿意的視頻片段,將它截取出來,向任一方向延展以完成場景

3、Storyboard工具:在時間軸上組織和編輯視頻的獨特序列,精確指定每一幀的輸入

使用(yong)(yong)故(gu)事板(ban)(Storyboard),視頻(pin)畫面能被控制得非常精(jing)細(xi)。用(yong)(yong)戶可(ke)通過輸入文字提示(shi)、上傳圖片(pian)或基(ji)于已有視頻(pin),在(zai)頁(ye)面添(tian)加多個分鏡(jing)頭。

比如(ru)指定(ding)第(di)一幀(zhen)是“一只美麗的黃尾白鶴站在小溪(xi)里(li)”,第(di)二幀(zhen)畫面是“鶴把頭(tou)伸進水里(li),撈(lao)出(chu)一條(tiao)魚”。

系統會自動擴寫提示(shi)詞。

有了這個工具,你就可以制作(zuo)多鏡頭視(shi)頻大片了。

例如生成一個“一片廣闊的(de)紅色景觀,遠處有一艘停靠的(de)宇宙飛船”的(de)視(shi)頻:

將下一個鏡頭(tou)指定為“從宇(yu)宙飛船(chuan)內部向外看,一位太空牛仔站在畫(hua)面中央”:

然(ran)后來個“針織布面(mian)罩(zhao)框(kuang)住宇航員的眼睛的詳細特(te)寫視圖”:

視頻(pin)就有了清晰的故事線。

4、Loop:使用循環剪輯并創建無縫重復的視頻

Loop有“短”(2秒)、“中(zhong)”(4秒)、“長”(完整(zheng)版)三種循環選項。

示例(li)1:花

示(shi)例2:樓梯

5、Blend:將兩個視頻合成為一個無縫剪輯

Blend曲線有過渡(Transition)、混(hun)合(Mix)、采樣(Sample)、定制(zhi)(Custom)四個選項。

可將兩個視頻(pin)畫(hua)面無縫融合:

6、Style presets(樣式預設):使用預設創建和分享激發想象力的風格

右(you)下角(jiao)是兩(liang)個猛犸象在步(bu)行的視頻,你可以將風(feng)格切(qie)換成(cheng)“硬紙板和紙質工藝品”(左上)、“復(fu)古電(dian)影”(右(you)上)、“懷舊檔案”(左下)。

三、網友玩出Sora各種bug:搞錯性別、文字亂碼、鏡頭變化不聽指令

Sora公開上(shang)線(xian)后,首批(pi)ChatGPT試用者們積極在社交(jiao)平臺曬(shai)作品。許多視頻乍一看都非常逼真(zhen),其中也(ye)不(bu)乏一些令人啼(ti)笑(xiao)皆非的畫(hua)面(mian)細節。

這個用戶的提示詞是“一只鵜鶘沿著俯瞰港口的沿海小徑騎自行車”,不過最后生成的視頻中,鵜鶘在中途莫名其妙地變為向相反的方向騎行

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有用戶的生成視頻中,Sora直接把人物性別搞反了。網友的提示詞是“一個30多歲的男人,黑頭發,戴著眼鏡,和一位黑發女人一起走在尼斯的長廊上。天氣很好,有幾個人在海灘上曬日光浴”。但視頻中出現了兩位女士

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

再來看下面的用戶體驗視頻,網友稱這條視頻Sora花費了大約30s,不過其并沒(mei)有公開提(ti)示詞。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有用戶立即對比了Sora、Runway、快手可靈、MiniMax海螺的效果。提示詞是“維京演員的情感表演。當演員皺眉時,鏡頭推到臉上”。

從結果來看,Sora的視頻鏡頭多變,且頗有大片風范,但沒有實現“當演員皺眉時,鏡頭推到臉上”

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

快手可靈的生成效果是最契合提示詞的,人物有細微的皺眉動作,且鏡頭聚焦到了人物臉上

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

MiniMax的海螺生成的視頻則是拉遠了鏡頭

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

Runway的人物表情相比其他三家在皺眉的同時帶動了臉部其他位置的變化。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

四、公開、專用、人類三類數據來源,數百名創意人士已體驗10個月

OpenAI還發(fa)布了Sora System Card來分享其安全和(he)監控方法(fa)的詳細信息。

Sora構建于DALL·E和GPT模型的基礎之上,是一種采用Transformer架構的擴散模型,從一個看起來像靜態噪聲的基礎視頻開始生成視頻,然后通過多個步驟消除噪聲,逐漸對其進行轉換。通過讓模型一次預測多個幀,Sora生成的視頻可以確保主體即使暫時消失在視野之外也能保持不變

該模型使用了DALL·E 3中的重新標注技術(Recaptioning Technique)。該技術可以(yi)為視覺(jue)訓(xun)練數據生(sheng)成高度(du)描述性的(de)(de)字(zi)幕,使(shi)模(mo)型(xing)能夠更忠實地遵循生(sheng)成的(de)(de)視頻(pin)中用(yong)戶的(de)(de)文本指令。

除了能(neng)(neng)夠僅根據文本指令生成視頻(pin)外,該模(mo)型還能(neng)(neng)夠利用(yong)現有(you)的(de)靜態圖像生成視頻(pin)或者利用(yong)現有(you)視頻(pin)進行擴展或填充(chong)缺失的(de)幀(zhen)。OpenAI相(xiang)信這一(yi)能(neng)(neng)力(li)將是實現通用(yong)人工智能(neng)(neng)(AGI)的(de)重要里程碑。

1、訓練數據來源:公開可用、企業專有數據、人類數據

與語言模型擁有文本token不同,Sora擁有視覺塊(visual?patches),這已被證明(ming)是視覺數(shu)據模型的有效表示。

基于(yu)此,OpenAI的研究(jiu)人員發現視(shi)覺塊是一種高度可擴(kuo)展且有效的表示(shi)形式,可用(yong)于(yu)在(zai)各種類型(xing)的視(shi)頻(pin)(pin)和圖像上訓(xun)練(lian)生成模(mo)型(xing)。在(zai)高層次上,他們首先將視(shi)頻(pin)(pin)壓縮成一個低(di)維的潛(qian)在(zai)空間(jian),然后將表示(shi)分解(jie)成時空視(shi)覺塊。

此外,Sora接受了各種數據集的訓練,包括公開可用的數據、通過合作伙伴關系訪問的專有數據以及內部開發的自定義數據集。這些包括:主要從行業標準的機器學習數據集和Web爬蟲中收集到的公開可用數據(ju);OpenAI建立合作伙伴關系以訪問非公開可用的專(zhuan)有數據,并合作調試和創建適合其需求的數據集;來自AI培訓師、紅隊成員和員工(gong)的反饋。

2、四項輸出前安全措施,數百名專業人士已測試10個月

Sora的能力可(ke)能帶來新的風險,例如濫用相似或(huo)產生(sheng)誤導性或(huo)露骨視頻內(nei)容的可(ke)能性。

在安全方面,自2024年2月發布Sora以來,OpenAI與來自60多個國家/地區的數百名視覺藝(yi)術家、設(she)計(ji)師和電影制作人(ren)合作,以獲得有關(guan)如(ru)何推進該模型以對創意專業(ye)人(ren)士最有幫助的反饋。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺▲動畫師上傳(chuan)微縮模型圖片后(hou)生成的(de)視(shi)頻(pin)

OpenAI采(cai)用(yong)了以下形式,作為Sora向(xiang)用(yong)戶顯示其請(qing)求輸出之前采(cai)取的安全緩解措施:

通過多模態(tai)審核分類器(qi)進(jin)行文本和圖(tu)像審核自定義大語言模(mo)型篩(shai)選(定制GPT,利用視頻生成的時間窗口,對某些特定主題高精度審核)、圖像輸出分類(lei)器(qi)、?黑名單(提前設置文本(ben)阻(zu)止列表)。

當前OpenAI屏蔽了一(yi)些(xie)特(te)別有(you)害的形式,如兒童(tong)虐待(dai)、深度(du)性偽造等。這些(xie)題材上傳會被限(xian)制。

OpenAI稱其分類器(qi)非(fei)(fei)常準確(que),但(dan)偶爾可能(neng)會錯(cuo)誤地標注成人或非(fei)(fei)現(xian)實的(de)兒童圖(tu)像。他們(men)也承認研究和現(xian)有文獻強調了年齡預測模型(xing)存在種族偏見的(de)可能(neng)性。

接下來幾個月里,OpenAI團隊將致(zhi)力于提(ti)高分(fen)類器的性能(neng),最(zui)大限度(du)地減少誤報,并加深其對潛在偏差的理解。

為了(le)確保(bao)Sora技(ji)術被負責任的使用(yong)(yong),所有Sora生成視(shi)頻均附帶C2PA元數(shu)據。它將(jiang)識(shi)別視(shi)頻是否來自Sora,以提(ti)供透明度,并可(ke)用(yong)(yong)于驗證來源(yuan)。OpenAI默認(ren)添加了(le)可見水印等保(bao)護措施,并構建了(le)一個內(nei)部搜索工具(ju),該(gai)工具(ju)使(shi)用(yong)第(di)二代的技術屬(shu)性來幫助驗證內(nei)容是否來自Sora。

結語:Sora仍有很多局限性

正在部署的(de)Sora版本有很(hen)多(duo)限制,通常會產生(sheng)不(bu)現實的(de)物(wu)理效果,同時長時間復雜動作仍具挑戰(zhan)性。

OpenAI仍在努力(li)使每個(ge)人(ren)都負擔得起這項技術。該團隊希望Sora早期(qi)版本能讓世界各地的(de)人(ren)們探索新的(de)創(chuang)意形式,講述自己的(de)故事,并(bing)突破(po)視頻講故事的(de)可能性。

對于視頻(pin)創(chuang)作(zuo)者來說,Sora的到(dao)(dao)來無疑(yi)是最(zui)頂的圣誕節(jie)禮物之一。很期待看到(dao)(dao)世界將用Sora創(chuang)造出(chu)什么。