機器人前瞻(公眾號:robot_pro)
編譯 |? 江宇
編輯 | ?漠影

機器人前瞻4月21日消息,谷歌DeepMind迎來突破性進展,其世界構建AI模型Genie 2展現了在機器人訓練領域的巨大潛力。

DeepMind CEO兼聯合創始人Demis Hassabis向《60分鐘》節目展示了這一創新技術,強調其在創建可交互3D環境及加速機器人學習方面的應用前景。

Genie 2能夠從單一靜態圖像生成可探索的3D虛擬世界,為AI代理和機器人提供逼真的模擬環境。

在演示中,DeepMind研究科學家Jack Parker-Holder展示了一張加州瀑布頂部照片,Genie 2將其轉化為類似第一人稱視角的視頻游戲場景。用戶或AI代理可以在虛擬環境中自由移動,例如在瀑布頂部的水池周圍行走,甚至探索原始圖像中不存在的景觀。

谷歌DeepMind CEO展示Genie 2:機器人訓練新時代

▲實機演示:Genie 2將加州瀑布頂部的照片轉化為類似視頻游戲場景

Hassabis表示,Genie 2的“世界模型”能夠動態生成環境,模擬現實世界的物理特性。這種能力使其不僅適用于娛樂領域(如生成游戲和視頻),更重要的是為AI和機器人提供高效的訓練平臺。

Hassabis強調,Genie 2的核心目標是構建理解現實世界的模型,為機器人訓練提供低成本、高效率的解決方案。傳統的機器人數據采集受限于現實世界的復雜性和高成本,數據量有限且收集速度慢。

而Genie 2的模擬環境可以生成近乎無限的數據量,允許機器人在虛擬世界中進行初步學習,隨后通過少量現實世界數據進行微調。

在一個演示中,AI控制的騎士角色在一個由Genie 2生成的3D環境中自主完成任務,例如從三個門廊中選擇正確路徑并爬上樓梯。Hassabis指出,這種技術可以讓機器人在模擬環境中學習復雜任務,如導航、物體交互和決策制定,從而大幅減少對現實世界數據的依賴。

谷歌DeepMind CEO展示Genie 2:機器人訓練新時代

▲實機演示:AI騎士角色在由Genie 2生成的3D環境中自主完成任務

Hassabis透露,DeepMind正在探索利用谷歌地圖、谷歌地球和街景視圖等地理數據,進一步增強AI的世界理解能力。這些數據可以為AI提供豐富的現實世界背景,幫助機器人更好地適應真實環境。

同時,Genie 2還能將靜態圖像(如街景或個人度假照片)轉化為交互式3D場景,為機器人訓練和用戶體驗開辟新可能性。

Hassabis還表示,未來版本的Genie模型將能夠創建更多樣化、復雜的虛擬世界,為機器人學習新技能、執行任務以及與人類和物體交互提供支持。這一技術不僅有望革新機器人開發,還可能在工業、醫療和探索等領域推動智能化應用的廣泛普及。

來源:CBS NEWS