10月22日,由智猩猩聯合 NVIDIA 策劃推出的「智猩猩公開課 NVIDIA 自動駕駛智能體專場」順利完結。NVIDIA Research 自動駕駛方向研究科學家李柏依以《探索基于多模態LLM 的自動駕駛智能體》為主題進行了直播講解,共涉及 LLaDA、TOKEN 以及 Wolf 三篇論文成果。首先,李柏依博士通過視頻 demo 介紹了自動駕駛智能體 LLaDA 如何為駕駛員和自動駕駛汽車提供多語言和地區交通規則的實時指導;之后通過對比GPT-Driver、人類駕駛員、LLaDA 的駕駛軌跡,分析了 LLaDA 如何幫助自動駕駛汽車和人類駕駛員調整軌跡策略,使其可以在世界的任何地方駕駛。
而在復雜交通場景中,車輛之間存在過多交互,這會導致智能體在預測時產生幻覺,從而影響其規劃性能。為此,李柏依博士詳解了如何基于 TOKEN 分解復雜交通場景,進而提升智能體在長尾事件的規劃能力。
最后,李柏依博士介紹了能夠提升智能體場景理解能力的自動化視頻字幕生成模型 Wolf,并對比分析了 Wolf 與 GPT-4V、CogAgent、VILA-1.5-13b 等其他模型。目前,此次公開課的課件 PPT 已上傳至公眾號【智猩猩】,大家可以在后臺回復關鍵詞“自動駕駛智能體”進行獲取和學習。
完整回放
錯過本次直播的朋友,可以觀看「智猩猩公開課 NVIDIA 自動駕駛智能體專場」完整回放。
//wqpoq.xetlk.com/sl/4p6Brv
精選PPT


相關資料
標題:《LLaDA: Driving Everywhere with Large Language Model Policy Adaptation》
鏈接:
//arxiv.org/abs/2402.05932
項目地址:
//boyiliee.github.io/llada/
NVIDIA博客:
//mp.weixin.qq.com/s/azJU4_OBzE_i8VvKnhDjww
標題:
《Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving》鏈接:
//arxiv.org/abs/2407.00959
標題:《Wolf: Captioning Everything with a World Summarization Framework》
//boyiliee.github.io/llada/
鏈接:
//arxiv.org/abs/2407.18908
項目地址:
//wolfv0.github.io/leaderboard.html