機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影
近日,馬斯克(ke)在(zai)X上確認了一則消息,Optimus開始嘗試通(tong)過人類視頻學(xue)習任務。此(ci)前據(ju)傳Optimus人形機器人在(zai)6月就已經(jing)放棄動作(zuo)捕捉服與遠程操作(zuo)方案,轉向純視覺數(shu)據(ju)驅動的訓練方式。

特(te)斯拉希望借助(zhu)互聯網上海(hai)量(liang)的(de)(de)視頻(pin)資(zi)源(yuan),提升(sheng)數據收集效率(lv)、提升(sheng)訓(xun)練(lian)規(gui)模。這個邏輯和特(te)斯拉自(zi)動駕駛系統(FSD)的(de)(de)研發(fa)路(lu)徑高度相似(si)——FSD就是通過(guo)車(che)載(zai)攝像頭捕捉(zhuo)的(de)(de)2D視頻(pin),實現對道路(lu)環境的(de)(de)感(gan)知與決策(ce),Optimus相當(dang)于(yu)把這一(yi)視覺學習(xi)思路(lu)從車(che)遷(qian)移到了(le)人(ren)形機器(qi)人(ren)上。
當前在具身智能領域,數據獲取主要有兩大路徑:遙操作和(he)虛(xu)擬合成。遙操作能夠獲取機械臂末端軌跡、末端開合狀態及第一/第三攝像頭視角信息,數據模態豐富但搜集效率低成本高;虛擬合成則是在仿真環境中生成數據,成本低但存在sim2real gap,而特斯拉試圖跳過這兩類方案存在的局限,直接從海量視頻中提取具身數據。
視頻數據蘊含著豐富的物理信息、空間信息與交互信息,且獲取成本極低,堪稱具(ju)身數據(ju)(ju)寶庫(ku),有(you)望重構具(ju)身智能數據(ju)(ju)采(cai)集范式。但(dan)如何使用(yong)視頻數據(ju)(ju)賦(fu)能具(ju)身模型(xing)訓練,行業仍處于(yu)探(tan)索階(jie)段。
根據Tesla Milan Kovac的披露,特斯拉目前已經實現讓機器人從第一視角視頻中學習,正在努力嘗試將這一能力遷移到使用包含人類作業過程的第三視角視頻上。這一突破一旦實現,意味著未來互聯網上的海量視頻都將成為具身智能的訓練數據,機(ji)器人能像人一(yi)樣通過“看”視頻(pin)學習(xi)新技能!

然而行業目前對純視頻訓練具身模型存在諸多質疑:根據最新的研究,僅2D視頻并不足以滿足具身模型的訓練需求,要想具身模型有更好的泛化性和更高的任務成功率,還需要機器人末端3D坐標及軌跡、6DOF位姿,被操作物體軌跡,第一視角視頻等等多模態數據。這類數(shu)據(ju)目(mu)前仍(reng)然要依靠(kao)昂貴的人工遙操作方式采集,無(wu)法被2D視(shi)頻替代。
特斯拉的具體的訓練策略尚未可知,而一家來自深圳的年輕創企提出了更加顛覆的視頻具身解決方案——將2D視頻數據升維,還原空間信息,【從2D視頻中提取出操作軌跡、末端6DOF位姿等具身模型訓練所必須的多模態數據】,進而實(shi)現(xian)視(shi)頻(pin)訓練(lian)具身智能模(mo)型。
▲2D視頻數(shu)據升維,實現視頻提取具身(shen)數(shu)據
這家公司是樞途科技,他們推出的SynaData數據管線實現了從互聯(lian)網RGB視(shi)頻(pin)中提取具身智(zhi)能訓練數據,并實(shi)現了清(qing)華RDT、PI?π0等第三方VLA模型的數(shu)據驗證。除了(le)滿足VLA模型所必須的操(cao)作軌跡、末端狀態(tai)等信(xin)息(xi)外,SynaData還能提取出物(wu)(wu)體mesh、物(wu)(wu)體點云、末端與物(wu)(wu)體的接觸狀態(tai)及接觸力、物(wu)(wu)體6DOF位(wei)姿(zi)等關鍵數據(ju)。這(zhe)些信(xin)息(xi),恰(qia)恰(qia)是(shi)機(ji)器人能在真(zhen)實世界中精(jing)準干活的核心。
樞途科技成立于2024年,聚焦于多模態具身智能技術研發,已獲得來自包括前微(wei)軟全球副總(zong)裁陸奇(qi)博(bo)士在內的多輪融資。創始人兼CTO林嘯是一名科技領域連續創業者,師從香港科技大學機器人研究院院長張福民教授,具有多年的數據編碼器及模型研發經驗,樞途核心成員來自Google Deepmind、騰訊、上汽、清華大學等頭部企(qi)業和科研機構,涵蓋了(le)計算機視覺、傳統圖形學、深度(du)學習與機器人運動控(kong)制等領域(yu)。
近日,機器人(ren)前瞻對話林(lin)嘯,深入了(le)解這(zhe)家年輕創(chuang)企如何跳出(chu)行業慣性,走出(chu)了(le)一(yi)條獨樹一(yi)幟的具身智能(neng)數據(ju)訓練路徑。
一、破解具身智能數據之困,把2D視頻升維成多模態數據
具身(shen)智能的(de)目標是讓機器人(ren)像人(ren)一(yi)樣理解(jie)并交互物(wu)理世界,而(er)這(zhe)一(yi)切的(de)前提(ti),是海量(liang)高質量(liang)的(de)訓練數(shu)據(ju)。但當前行業面(mian)臨的(de)現實是:數(shu)據(ju)要么太貴、要么質量(liang)不夠高。
傳統的遙操方案需要人力去手把手教,不僅效率低下、難以規模化,成本上和硬件強綁定,采集成本高。也有不少企業嘗試在仿真環境中生成數據,但仿真環境比較難精準模擬真實世界的物理約束,sim2real gap讓訓練出來(lai)的模型(xing)容易在(zai)真實場景中(zhong)掉鏈子。
既然遙操方案無法規模化,仿真數據質量又不夠好,那么是否有可規模化又高質量的數據采集方案呢?結合在視頻數據編碼器和模型研發上的多年研究經驗,林嘯與(yu)特(te)斯拉一樣,默契地選擇了包含(han)豐富物理約束(shu)、高維信息的視(shi)頻(pin)數據(ju)作為(wei)掘(jue)金對象。
行業目前對視頻數據使用的思路包含幾類:
1、從視頻中學習任(ren)務意圖:對視頻(pin)進行語義理(li)解(jie)(jie)和任務拆解(jie)(jie),比(bi)如把沖咖啡的視頻(pin)拆解(jie)(jie)成“拿杯子—加咖啡粉—倒水”這樣(yang)一系列流(liu)程,機器人可以通過視頻(pin)來理(li)解(jie)(jie)人類(lei)做什(shen)么,分(fen)幾步(bu)做。
2、從視頻中學習操作軌跡:用(yong)視頻的(de)下(xia)一(yi)(yi)幀(zhen)預測指導機器(qi)人(ren)“預測下(xia)一(yi)(yi)步動作”,雖然借助擴散模(mo)(mo)(mo)型(xing)確實(shi)可以逐(zhu)步推(tui)演機器(qi)人(ren)末端下(xia)一(yi)(yi)時間(jian)單位(wei)的(de)空間(jian)坐標從而形成軌跡,但推(tui)理成本(ben)巨大且推(tui)理過程“黑箱”:模(mo)(mo)(mo)型(xing)能(neng)力提升了,不知道是視頻里的(de)哪(na)個(ge)細節起了作用(yong);模(mo)(mo)(mo)型(xing)失效了,也不知道該(gai)怎么優化,只能(neng)不斷增加數據,增加成本(ben)。
樞途科技的突破,在于跳出了傳統的視頻使用思維,選擇對(dui)2D視頻進行針對(dui)性升(sheng)維,提取出符合具身智能需(xu)求的(de)高維多模態數據(ju)。高維(wei)數據能更(geng)精準地描述物理世界,機器(qi)人模型的學(xue)習效率和泛化(hua)能力(li)自(zi)然(ran)會提升,還具有了(le)可解(jie)釋性(xing)和定向優化(hua)的能力(li)。
▲SynaData視(shi)頻(pin)具(ju)身數據提取
二、具身訓練精度、成功率大幅提升,數采成本降到千分之五
受到拍攝(she)設備多(duo)變、空(kong)間(jian)數(shu)(shu)據(ju)缺(que)失、拍攝(she)視(shi)(shi)角變化(hua)等限制(zhi),要用視(shi)(shi)頻(pin)(pin)數(shu)(shu)據(ju)訓練(lian)機器人,經常面臨視(shi)(shi)頻(pin)(pin)提取(qu)軌跡及其他多(duo)模(mo)態(tai)數(shu)(shu)據(ju)精度不足等各類問題。
樞途SynaData從幾個方面解決了相關痛點:
1、毫米級軌跡提取引擎:單目視頻存在缺乏深度信息、物體自遮擋問題,SynaData通過整合海量先驗知識庫,實現了數據升維真實性和軌跡復原的準確性。在餐具分揀測試中,軌(gui)跡重建誤(wu)差從傳(chuan)統方法的±5厘米降至±0.5厘米,讓機(ji)器人的抓取動作更加精(jing)準。
▲展(zhan)示提包(bao)的(de)互聯網視(shi)頻轉化為訓練(lian)機器人拎包(bao)的(de)數據(ju)
2、跨域Retargeting技術:動態結構適配算法,實現跨形態高精度運動重定向,將模仿學習誤差降低超50%,任務成功率提升40%,大幅降低human to humanoid遷移成本。能將視頻具身數據運用于不同類型、不同品牌、不同自由度的機器人本體上。
▲SynaData毫米級(ji)軌跡(ji)提取及跨域(yu)Retargeting技術(shu)
3、真實物理屬性約束:解決在仿(fang)真環境中缺乏物(wu)理屬性(xing)(摩(mo)擦(ca)力、慣(guan)性(xing)、重力加(jia)速度等)約束問題,確保機器人能夠以真實世界(jie)的物(wu)理形(xing)態操作。
以“拿取外賣袋”這個任務為例,樞途SynaData從海量人手拿取袋裝物體視頻中批量提取出人手及物體軌跡、物體mesh等具身數據,并用于模型訓練。該數據集訓練的抓取模型對外賣袋的抓取成功率提升至88%。
▲機械臂通(tong)過大量視頻數據學會抓(zhua)袋子
據了解,SynaData將具身數據的綜合采集成本降至行業平均水平的千分之五。林(lin)嘯提(ti)到,這不僅意味著(zhu)數據采集成(cheng)本的降低,而是(shi)從客(ke)戶提(ti)出需求到機器(qi)人真正能(neng)實現動作的全流程的成(cheng)本降低到千(qian)分級別(bie)以(yi)下。
目前,SynaData已通過了第三方具身模型的廣泛驗證,成功應用于清華RDT、PI π0、智元UniVLA、EquiBot等主流VLA模型,推動(dong)具身智能訓(xun)練從“手(shou)把手(shou)教學”奔向“觀(guan)看教學”新(xin)范式。
林嘯介紹,SynaData在學術領域的應用,能夠為模型研發帶來新思路。此前,高校與科研機構的具身智能研究,大多依賴遙操或仿真數據集,數據場景可能會較為單一、特征相似,限制了對模型的探索。而樞(shu)途SynaData提供的數據(ju)包含(han)20個(ge)以(yi)上(shang)的模態維度(du),產出涵(han)蓋抓取、放置、組裝等逾百種任務場景的(de)數據集,為研究人(ren)員(yuan)提供了新的(de)探(tan)索(suo)空間。
在商業化落地方面,樞途已經和國內多家頭部人形機器人企業展開合作,SynaData能幫助機器人企業實現運動控制、靈巧操作方面的能力,同(tong)一套數(shu)據適配多(duo)種不(bu)同(tong)的硬件(jian)。

▲人(ren)(ren)形機器人(ren)(ren)學習(xi)視頻中(zhong)的人(ren)(ren)類動(dong)作
結語:解鎖視頻富礦,支撐機器人走向千行百業
對于樞途科技而言(yan),SynaData的(de)發布只是一個(ge)開(kai)始。未來,其將(jiang)從三(san)大方面拓展(zhan)視頻數據(ju)采集(ji)的(de)技術(shu)邊界:
精度升級:通過引入動態(tai)(tai)遮擋(dang)建模(mo)和多視角重(zhong)建機制,將各模(mo)態(tai)(tai)重(zhong)建平均精度(du)從目前(qian)的5毫米(mi)級進一步壓(ya)縮至(zhi)2毫米(mi)以下,滿足更多模(mo)態(tai)(tai)支(zhi)持需求;
泛化擴展:持續擴(kuo)展支持的(de)機器(qi)人(ren)本體數量至(zhi)100種(zhong)以上,適(shi)配包含(han)人(ren)形機器(qi)人(ren)、多類型靈(ling)巧手、協作機械臂,AGV、AMR等(deng)各類結構;
生態共建:樞途計劃于2025年四季度發布首個基于真實場景視頻的多模態具(ju)身(shen)開(kai)源數(shu)據集,與(yu)NVIDIA Isaac等仿(fang)真環境伙伴共建具身(shen)數據基礎設施。
“模型(xing)決(jue)定上限(xian),數據逼近上限(xian)。”林嘯強調,“SynaData的出現,為數據這一核心短板提供了可行解,不僅降低了數據成本,更是解鎖了互聯網上海量的視頻‘數據富礦’,讓機(ji)器(qi)人能像(xiang)人類看(kan)視(shi)頻學(xue)技能一樣,高效獲取(qu)真實(shi)世界的交互(hu)經驗,為機(ji)器(qi)人進入千行百業提(ti)供數據上的核心支撐!”