讓自動駕駛系統適應新環境和不同地區的習慣和法規是自動駕駛領域長期面臨的挑戰。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環境的駕駛策略和指令,為駕駛員和自動駕駛汽車提供多語言和地區交通規則的實時指導,幫助他們更輕松地在陌生的地方導航。此外,LLaDA 還能幫助自動駕駛汽車重新規劃出與當地環境更加匹配的運動軌跡,調整自動駕駛汽車的運動規劃策略。相關論文成果收錄于?CVPR 2024?。

NVIDIA Research 研究科學家李柏依:探索基于多模態LLM 的自動駕駛智能體 | 公開課預告

然而,LLaDA 無法實現場景的自動識別,且對場景描述的質量有著較高要求。盡管 GPT-4V 能夠提供這種描述,但是卻不夠準確。為此,NVIDIA Research 提出一個創新的自動化視頻字幕生成框架 Wolf。Wolf 采用專家混合方法,利用視覺語言模型(VLMs)的互補優勢,能夠提升自動駕駛智能體的場景理解能力。

NVIDIA Research 研究科學家李柏依:探索基于多模態LLM 的自動駕駛智能體 | 公開課預告

此外,LLaDA 通常是與用戶直接交互,并主要處理文本信息。相比之下,自動駕駛系統則需要提供具體的位置和軌跡規劃信息。基于這些差異,NVIDIA Research 團隊專為自動駕駛領域設計出一種多模態大型語言模型(MM-LLM)TOKEN。TOKEN 通過將復雜的交通環境轉化為對象級別的知識單元,增強了自動駕駛車輛在面對長尾事件時的規劃能力。該模型還結合了端到端駕駛模型的優勢,解決了數據稀缺和標記化效率低下的問題。相關論文收錄于?CoRL 2024?。

NVIDIA Research 研究科學家李柏依:探索基于多模態LLM 的自動駕駛智能體 | 公開課預告

在上述背景下,智猩猩與 NVIDIA 策劃推出「智猩猩公開課 NVIDIA 自動駕駛智能體專場」,并將于10月22日以視頻直播形式進行。公開課邀請到?LLaDA 論文第一作者NVIDIA Research 自動駕駛方向研究科學家李柏依進行主講,主題為《探索基于多模態LLM 的自動駕駛智能體》。

李柏依博士首先會重點講解 LLaDA 如何利用 LLM 生成適應不同環境的駕駛策略和指令;之后會解讀如何使用 Wolf 框架生成字幕提升智能體的場景理解能力。接下來,李柏依博士會講解如何基于 TOKEN 分解復雜交通場景提升智能體在長尾事件的規劃能力,最后會分享在自動駕駛智能體上的未來研究方向,并進行展望。

NVIDIA Research 研究科學家李柏依:探索基于多模態LLM 的自動駕駛智能體 | 公開課預告

公開課信息

?主 題?

探索基于多模態 LLM 的自動駕駛智能體

?提 綱

1、LLaDA 利用 LLM 生成適應不同環境的駕駛策略和指令
2、使用 Wolf 框架生成字幕提升智能體的場景理解能力
3、基于 TOKEN 分解復雜交通場景提升智能體在長尾事件的規劃能力
4、未來研究方向與展望

主 講 人

李柏依,NVIDIA Research 自動駕駛方向研究科學家

李柏依是 NVIDIA 自動駕駛汽車研究小組的一名研究科學家。博士畢業于康奈爾大學,師從Serge Belongie 教授 和 Kilian Q. Weinberger 教授。她對計算機視覺、機器學習和多媒體藝術感興趣,研究重點是多模態與數據高效的機器學習。

?直 播 時 間

北京時間10月22日上午10點

報名方式

對此次公開課感興趣的朋友,可以掃描下方二維碼添加小助手小艾進行報名。已經添加小艾的老朋友,可以給小艾私信,發送“自動駕駛智能體”即可報名。我們會為報名成功的朋友推送直播鏈接。

同時,本次公開課也組建了交流群,直播開始前會邀請相關朋友入群交流。

NVIDIA Research 研究科學家李柏依:探索基于多模態LLM 的自動駕駛智能體 | 公開課預告