1、馬斯克:特斯拉一年前就可生成真實世界視頻
2、馬斯克連續發文施壓OpenAI
3、楊立昆開噴Sora:不理解物理世界
4、謝賽寧否認系Sora發明者
5、李志飛稱Sora是世界模擬器 歸功于三大要素
6、AI配音版Sora視頻上線
7、英偉達高級研究科學家回應Sora視頻“有聲”
8、傳月之暗面融資10億美元,美團、阿里參投
9、266家企業通過網信辦第四批深度合成算法備案
10、信通院可信AI汽車大模型啟動首批驗證
11、虹軟大模型引擎上線視頻生成功能
12、傅盛稱AGI和Sora沒有大關聯
13、UC伯克利大世界模型登GitHub熱榜第一
14、硅谷芯片大神懟阿爾特曼7萬億美元AI芯片計劃
1、馬斯克:特斯拉一年前就可生成真實世界視頻
今天,馬斯克在社交平臺X上回復網友稱,一年以前,特斯拉就已經能以精確的物理生成真實世界的視頻,但由于訓練數據來自汽車,所以生成的視頻并不有趣,因此即便具有動態生成的內容也看起來像來自特斯拉的視頻。他稱特斯拉缺乏FSD的訓練算力,因此沒有用其他視頻進行訓練,今年晚些時候,當特斯拉有閑置算力時,他們會進行訓練。馬斯克轉發了2023年特斯拉自動駕駛總監Ashok Elluswamy介紹特斯拉如何用AI模擬真實世界駕駛的相關視頻,其中AI生成了7個不同角度視頻以實現演示。


2、馬斯克連續發文施壓OpenAI
今天,馬斯克在社交平臺X上連發多條推文施壓OpenAI,他轉發了2016年8月,OpenAI第一次收到英偉達捐贈DGX-1 AI超級計算機的推文,并說“現在看看發生了什么:(”。同時他還轉發了同天發布的OpenAI公司入口處照片,并@OpenAI稱,這是OpenAI“最初創建的原因”。馬斯克炮轟OpenAI背離初心,言外之意是對AI技術過快的發展表示擔憂。

3、楊立昆開噴Sora:不理解物理世界
今天,Meta首席AI科學家楊立昆在社交平臺X上發文評價Sora,一個“創造東西”的工具作為創造性的輔助工具是非常棒的。“但作為幫助人們采取行動的心理模型,它完全很糟糕。”并且針對OpenAI Sora生成的“螞蟻穿梭蟻巢特寫”視頻中,螞蟻只有4條腿,楊立昆發文喊話Sora團隊負責人Aditya Ramesh:“螞蟻有六條腿,不是嗎?”楊立昆稱,Aditya在紐約大學讀本科時就在他的實驗室工作過,之后在OpenAI實習并留下任職。2月17日,楊立昆曾發文稱:“根據提示生成看起來最真實的視頻并不表明系統能理解物理世界,生成與世界模型的因果預測有很大不同。”

4、謝賽寧否認系Sora發明者
今天,據新浪科技報道,紐約大學助理教授謝賽寧發朋友圈辟謠自媒體稱其是Sora發明者之一。謝賽寧稱,Sora跟他的關系“只能說是一點關系都沒有”。對于Sora這樣的復雜系統,人才第一,數據第二,算力第三,其他都沒有什么是不可替代的。他還談道:“在問Sora為什么沒出現在中國的同時,可能也得問問假設真的出現了(可能很快),我們有沒有準備好?”

5、李志飛稱Sora是世界模擬器 歸功于三大要素
今天,AI科技公司出門問問CEO李志飛在公眾號“飛哥說AI”發文,分析了“為什么說Sora是世界的模擬器?”他提到,ChatGPT通過“語言”這一思維的載體,其可以多方面模擬虛擬世界中的各種場景和角色(合理絲滑的故事線),成為虛擬世界的“模擬器”。而作為“物理世界的模擬器”,需要能夠在虛擬環境中重現物理現實,為用戶提供一個逼真且不違反「物理規律」的數字世界。他們認為,Sora之所以有潛力成為下一代物理世界模擬器的翹楚,主要歸功于其基于多模態大模型的設計理念及其實現中巨大算力和工程能力。不過,他也提到,Sora并不是成為世界模擬器的唯一解法,另外一種可能是ChatGPT+物理渲染引擎UE。
6、AI配音版Sora視頻上線
昨天,AI音頻生成創企ElevenLabs在社交平臺X上,發布了為Sora生成的視頻添加音效后的視頻,如汽車行駛的引擎聲、公共交通行駛聲音、走路聲、海浪聲等。并且該公司還預告AI音效生成的相關功能即將上線。

7、英偉達高級研究科學家回應Sora視頻“有聲”
今天,英偉達高級研究科學家范麟熙(Jim Fan)發文回應AI音頻生成創企ElevenLabs為OpenAI Sora生成的視頻添加了音頻。范麟熙認為,目前這一音頻是由文本提示的,但正確的調節應該針對文本和視頻像素,既要學習準確的視頻,音頻映射還需要對潛在空間中的一些“隱式”物理進行建模。
想要正確模擬視頻的聲音需要做到:
(1)識別每個對象的類別、材料和空間位置;
(2)識別物體之間的高階相互作用,棍子是否擊中木質、金屬或鼓表面?以什么速度;
(3)識別環境:餐館、空間站等;
(4)從模型的內存中檢索物體和周圍環境的典型聲音模式;
(5)“軟”運行,學習物理規則來拼湊和調整聲音模式的參數,甚至即時合成全新的聲音模式,有點像游戲引擎中的“程序音頻”;
(6)如果場景繁忙,模型需要根據空間位置疊加多個音軌。
以上這些都將通過大量視頻、音頻組合的梯度下降來學習,這些組合在大多數互聯網視頻中自然是時間對齊的。注意力層將在其權重中實現這些算法以滿足擴散目標。不過,目前還沒有如此高質量的AI音頻引擎,他分享了一篇5年前名為“像素之聲”的論文。
論文地址:http: //sound-of-pixels.csail.mit.edu

8、傳月之暗面融資10億美元,美團、阿里參投
據36氪報道,國內大模型獨角獸月之暗面近期已完成新一輪超10億美元融資,投資方包括紅杉中國、小紅書、美團、阿里,老股東跟投。本輪融資后,月之暗面估值已達約25億美元。據了解,月之暗面當前也已經在秘密研發通用多模態模型,預計今年內將推出。目前,月之暗面已經完成千億參數規模的自研通用大模型,面向消費者的“kimi智能助手”。
9、266家企業通過網信辦第四批深度合成算法備案
2月18日,根據《互聯網信息服務深度合成管理規定》,國家互聯網信息辦公室公開發布第四批境內深度合成服務算法備案信息,包括獵戶星空大模型算法、愛詩科技視頻生成算法、TCL智能問答內容生成算法 、vivo藍心大模型算法、智譜多模態通用文生圖算法、聆心CharacterChat生成算法等266家企業。
詳細備案清單地址://www.cac.gov.cn/2024-02/18/c_1709925427424332.htm

10、信通院可信AI汽車大模型啟動首批驗證
今天,依托于中國信息通信研究院開展的第三方評估測試平臺“可信AI評測”宣布,中國信通院可信AI汽車大模型首批標準符合性驗證正式啟動。此前,中國信息通信研究院聯合業內30余家單位共同編制了《面向行業的大規模預訓練模型技術和應用評估方法 第4部分:汽車大模型》標準,此次驗證工作主要面向汽車大模型相關解決方案的應用單位和技術提供單位。應用方可評估汽車大模型的應用效能,對已應用或擬采用的汽車大模型產品進行評估。同時,技術方可對產品能力進行摸底。

11、虹軟大模型引擎上線視頻生成功能
今天,虹軟核心大模型技術引擎虹軟ArcMuse升級,將支持面向商拍的商業視頻自動生成。虹軟ArcMuse大模型視頻生成基于diffusion-transformer技術架構,通過圖像,ArcMuse大模型能夠捕捉到商品的細節特征、質感、色彩等方面的精確信息,生成更能展示商品真實面貌的動態商拍視頻。在產品功能落地上,虹軟的ArcMuse引擎實現了兩大核心功能:一是商品展示視頻的自動生成,二是服裝模特視頻的自動生成。未來,PhotoStudio AI將成為能夠助力商家依靠產品圖片生成展示視頻的AIGC視頻創作工具。
體驗地址://photostudio.arcsoft.com.cn/

12、傅盛稱AGI和Sora沒有大關聯
今天,在央視財經前沿科技訪談節目《光華錄》中,獵豹移動董事長兼CEO、獵戶星空董事長傅盛表示,OpenAI正式推出Sora是一個里程碑級別的事件;Sora的出現是更好的工程化、更大的算力的結果。他談道,Sora相當于打開了一扇門,很快很多人都會涌入這個領域。OpenAI把Transformer引進到了視頻的時間軸里面,真正地實現了對更多數據量的理解。傅盛還提到,通用人工智能的出現和Sora并無很大的關聯。
13、UC伯克利大世界模型登GitHub熱榜第一
今天,UC伯克利大學研究人員提出的大世界模型(Large World Model,LWM)登上GitHub榜首,目前已經攬獲3.2K星標。為了應對內存限制、計算復雜性和數據集有限等挑戰,研究人員從數百萬個視頻和語言序列的標記中學習,整理了一個包含各種視頻和書籍的大型數據集,利用RingAttention技術對長序列進行可擴展訓練,并逐漸將上下文大小從4000 tokens增加到100萬tokens,并完全開源一系列7B參數模型。論文中提到,LWM可以回答超過1小時的YouTube視頻中的相關問題,還能在100萬tokens的上下文窗口內實現高精度檢索,并且性能優于GPT-4V和Gemini Pro。
論文地址://largeworldmodel.github.io/
項目地址://github.com/LargeWorldModel/LWM?tab=readme-ov-file

14、硅谷芯片大神懟阿爾特曼7萬億美元AI芯片計劃
今天,硅谷芯片大神吉姆?凱勒(Jim Keller)在社交平臺X上回復OpenAI CEO薩姆·阿爾特曼(Sam Altman)籌集5-7萬億美元制造AI芯片的計劃,吉姆?凱勒稱,他可以用不到1萬億美元做到這一點。
