智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 心緣
智東西2月20日報道,今日凌晨,微軟第一個世界和人類行動模型(WHAM)Muse登上國際頂級學術期刊Nature。
Muse是視頻游戲生成模型,其參數量最高達到16億,是基于接近7年的人類游戲數據進行訓練,其可以理解游戲中的物理和3D環境,然后生成對應玩家的動作以及視覺效果。
不過,因為研究工作仍處于早期,目前其僅限于以300×180像素的分辨率生成游戲視覺效果。
論文中顯示,其生成的游戲視頻效果能同時保持一致性、多樣性和持久性。具體來說,其生成的兩分鐘視頻效果人類真實游戲效果相近;會提供不同攝像機移動角度、不同角色、游戲工具的多樣性效果;還支持開發者添加新元素,并自動合理融入畫面。

這一模型由微軟研究員游戲智能團隊、可教的AI體驗(Tai X,Teachable AI Experiences)團隊與微軟旗下游戲工作室Xbox Games Studios的電子游戲制作公司Ninja Theory合作開發。
微軟正在開源權重和樣本數據,并提供了一個可視化的交互界面WHAM Demonstrator供開發者體驗,開發者可以在開發人員可以在Azure AI Foundry上學習試驗權重、示例數據和 WHAM Demonstrator。

論文地址:
一、基于7年人類游戲數據訓練,模型參數16億
Muse上下文長度為1秒,在7 Maps數據集上訓練,每張圖像都以數據集的原始分辨率300×180編碼為540個Tokens。7 Maps數據集的數據量相當于7年多的人類游戲時間。研究人員從Xbox游戲Bleeding Edge的7張游戲地圖中提取了大約50萬個匿名游戲會話的數據,磁盤上總計27.89TiB。
此外,還有1500萬到8.94億參數的模型,上下文長度為1秒,在7 Maps過濾后的Skygarden數據集上訓練,每張圖像將以128×128編碼成256個Tokens。該數據集指的是僅在Skygarden地圖上進行1年匿名游戲的數據。
微軟官方發布的示例都是通過提示模型使用10個初始幀(1秒)的人類游戲和整個游戲序列的控制器動作來生成的。
例如,用戶可以將視覺對象作為初始提示加載到模型,下方視頻添加了Bleeding Edge中的圖像,然后使用Muse從此起點生成多個可能的延續圖像。

此外,用戶還可以瀏覽生成的序列并進行調整,例如使用游戲控制器來指導角色。這些功能演示了Muse的功能如何將迭代作為創作過程的一部分。

Muse在生成游戲視頻時可以保持一致性、多樣性和持久性。
在一致性方面,下方視頻都是基于基于 Muse生成,兩段視頻演示了該模型生成長達兩分鐘的一致游戲序列的能力。

多樣性方面,以相同的初始10幀(1 秒)真實游戲為條件,下面視頻中,上方的三個視頻顯示了行為多樣性(不同的攝像機移動、在生成位置附近徘徊以及導航到中間跳板的各種路徑),下方的三個視頻顯示了視覺多樣性(角色的不同懸浮板)。

在持續性方面,模型還可以在修改游戲序列時提示它并保留新引入的元素。例如,在下面的演示中,可以看到新角色被添加到游戲的原始視覺對象中,視頻中這一新角色會保留,還會在后續視頻中繼續存在。

此外,論文中還提到Muse訓練的數據是通過與Ninja Theory的合作提供的,數據收集由最終用戶許可協議涵蓋,研究人員對數據的使用受與游戲工作室的數據共享協議的約束,并由機構審查委員會批準。這些數據是在2020年9月至2022年10月期間記錄的。為了最大限度地降低人類數據的風險,他們已從數據中刪除了任何個人身份信息(Xbox用戶ID),并對結果數據進行清理,以刪除非活躍玩家的數據。
二、多學科協作評估,確定三大模型能力
在早期,研究人員首先總結了27名從事游戲開發的創意人員的用戶研究結果,以評估發散思維和迭代實踐在使用生成式AI實現新穎性設計的重要作用。基于這些見解,他們確定了一組可能對實現創造性構思很重要的生成模型能力,即一致性、多樣性和持久性。
其中,一致性可以使得生成的序列隨時間推移并與游戲機制保持一致,多樣性允許模型產生大量不同的序列,反映不同的潛在結果,以支持發散性思維,持久性使得用戶對游戲視覺效果和控制器動作進行修改,并將它們同化到生成的游戲序列中。

Muse基于人類游戲數據進行訓練,以預測游戲視覺效果(“幀”)和玩家的控制器動作(“模型架構和數據”部分)。生成的模型準確捕獲了游戲環境的3D結構(“模型評估”部分)、控制器動作的效果和游戲的時間結構,使得其生成的視頻可以連貫、一致且具有多樣性。
對于Xbox控制器動作,盡管按鈕本身是離散的,但研究人員將左右搖桿的x和y坐標離散為11個Buckets,然后訓練一個僅解碼器的轉換器來預測交錯圖像和控制器動作序列中的下一個Tokens。生成的模型可以通過對下一個Tokens進行自回歸采樣來生成新的序列。生成過程中,研究人員還可以修改Tokens,以允許修改圖像或者控制器動作。
微軟高級研究員Tabish Rashid提到:“最初分配H100是相當艱巨的,尤其是在早期階段,要弄清楚如何最好地利用它來擴展到帶有新圖像編碼器的更大型號。經過數月的實驗,終于在不同的地圖上看到模型的輸出,并且不必瞇著眼睛看較小的圖像,這是非常有益的。”
三、生成效果接近人類真實水平,新角色也能合理融入
論文闡釋了研究人員對模型一致性、多樣性和持久性的具體評估結果。
研究人員通過Fréchet視頻距離 (FVD)衡量一致性效果。研究中使用模型生成游戲視覺效果,以包含視頻和控制器動作的1秒游戲體驗為條件,再加上人類玩家在接下來的9秒內的游戲過程中采取的控制器動作,可以看出生成的游戲玩法與真實情況匹配。


為了評估模型的持久性,研究人員通過插入游戲內對象、其他玩家、地圖元素之一來手動編輯游戲圖像。結果表明,Muse能夠保留已插入到看似合理但新的起始位置的常見游戲元素。

結語:微軟世界模型,開啟重塑游戲體驗新大門
微軟新推出的世界模型為我們呈現了生成式AI在游戲領域的巨大潛力,正如其在示例中所言,這樣的模型既可以學習游戲世界的豐富結構,還能展示如何進一步支持模型的創造性使用。這可能會從根本上改變用戶未來保存和體驗經典游戲的方式,并使更多玩家接觸到它們。
同時,他們一開始通過與多學科人員的協作,以找到構建模型能力滿足創意人員需求的切入點,也為模型在不同場景的應用提供了經驗。
目前,微軟已經開源了權重和樣本數據,會加速開發者基于此進行后續研究,或許會在不久的將來誕生基于AI的新穎游戲體驗,挖掘出AI在游戲應用的更多應用場景。