隨著數據和模型規模的大幅擴展,大型語言模型(LLMs)的基礎模型已經取得了顯著的成功。很多模型通過零/少樣本學習,而無需大量的任務特定數據或模型參數更新,就能擁有先進的能力,包括語言理解、生成、推理和與代碼相關的任務。

視覺任務不同于語言任務,很難找到一種封閉定義去囊括所有的任務形式。那么,視覺任務的終局是什么?有沒有可能做到像現在語言任務的大一統?同時,在這個大模型、多模態等前沿領域快速更新迭代的時代,研究者們又該如何在緊跟日新月異的技術發展潮流的同時,做出有自己特色的研究呢?

8月30日晚7點,智東西公開課推出「大規模視覺基礎模型在線研討會」。研討會由南開大學副教授李翔博士參與出品。李翔博士入選了南開大學百青計劃、博士后創新人才支持計劃,在 CVPR、NeurIPS 及權威期刊 TPAMI 等上發表40余篇學術論文,谷歌學術總引用達7400余次,合作提出的 PVT 模型入選 ICCV21 Top-10 最具影響力工作(排名第二,第一名為馬爾獎Swin Transformer)。

本次研討會,香港中文大學博士后王文海、微軟亞洲研究院研究員宋愷濤和南京理工大學在讀博士楊凌風三位青年學者將參與主講。他們將分別圍繞主題《“大規模視覺基礎模型 + LLM”在開放世界任務中的應用初探》、《基于 ChatGPT + Hugging Face 解決復雜人工智能任務》和《大型視覺語言模型的細粒度視覺提示及局部定位識別》進行深度講解。

出品人
 李翔博士,南開大學計算機學院副教授;入選南開大學百青計劃、博士后創新人才支持計劃,主持國家自然科學青年基金,獲江蘇省人工智能學會優秀博士論文獎,CCF優秀博士論文提名獎;在CCF A 類會議CVPR、NeurIPS及權威期刊TPAMI等上發表40余篇學術論文,包括第一作者和通訊作者20余篇;谷歌學術總引用達7400余次,一作代表工作SKNet(CVPR19)引用1700余次;長期擔任國際人工智能頂級會議AAAI、CVPR及權威期刊TPAMI、TIP、TMM審稿人,擔任PRCV23領域主席,Image and Vision Computing期刊副主編。

主題介紹

香港中文大學博士后王文海:“大規模視覺基礎模型 + LLM”在開放世界任務中的應用初探

近年來,以ChatGPT為代表的大規模語言模型已在自然語言處理開放世界任務中獲得了極大的成功。然而,由于其受到模態的限制,這些模型在計算機視覺和視覺語言任務中的應用仍然受到限制。

在本次分享,我們將從大規模視覺基礎模型開始,探討視覺基礎模型與大規模語言模型在以視覺為中心的開放世界任務中的應用。包括:(1)大規模視覺基礎模型的構建和訓練;(2)視覺基礎模型和大規模語言模型在開放世界視覺交互系統中協同應用;(3)更靈活的大規模語言模型在開放世界視覺和視覺語言任務中的使用方法。

微軟亞洲研究院研究員宋愷濤:基于 ChatGPT + Hugging Face 解決復雜人工智能任務

利用不同領域和模態的復雜人工智能任務是邁向先進人工智能的關鍵一步。雖然針對不同領域和模態存在大量的人工智能模型,但它們無法處理復雜的人工智能任務。考慮到大型語言模型(LLMs)在語言理解、生成、交互和推理方面表現出色的能力,我們認為 LLMs 可以充當控制器,管理現有的人工智能模型來解決復雜的人工智能任務,而語言可以作為通用接口來實現這一點。基于這一理念,我們提出了一個框架,利用 LLMs(例如ChatGPT)來連接機器學習社區中的各種人工智能模型(例如Hugging Face)來解決人工智能任務。

具體而言,我們使用 ChatGPT 在接收用戶請求時進行任務規劃,根據 Hugging Face 中可用的模型功能描述來選擇模型,使用所選的人工智能模型執行每個子任務,并根據執行結果總結回應。通過充分利用 ChatGPT 的強大語言能力和 Hugging Face 中豐富的人工智能模型,我們的系統(即HuggingGPT)能夠涵蓋許多不同模態和領域的復雜人工智能任務,并在語言、視覺、語音和其他具有挑戰性的任務方面取得令人印象深刻的結果,為邁向人工通用智能開辟了新的道路。

南京理工大學在讀博士楊凌風:大型視覺語言模型的細粒度視覺提示及局部定位識別

大型視覺語言模型在多個圖像層級的任務上取得優秀表現,但是其潛在的知識難以被應用于局部定位識別任務。現有的零樣本遷移方法使用了視覺提示的策略,但是其提示設計存在不準確、引入噪聲等問題。

我們通過流程圖以及實例可視化展示了我們的解決方法,并在展示了在多個數據集上的實驗結果。最后,我們對各個方法進行了有效性分析,并進行了視覺提示的結果可視化。