「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」目前已完結142講,錯過往期講座直播的朋友,可以點擊文章底部“閱讀原文”進行回看!
有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。
視覺Transformer模型幾乎火遍計算機視覺各個領域,其性能隨著參數增加和更久的訓練過程而得到提升。然而,當可供訓練的參數較少時,較大的視覺Transformer模型往往不易于發揮其強大的建模表征能力。
目前,提高視覺Transformer模型有效性和效率的思路主要有兩種:一種是擴大可訓練參數范圍,另一種是通過參數共享實現淺層化或在模型深度上進行壓縮。但是兩種思路各有其局限性,前者在訓練和推理過程中,性能不能被線性的提升 ;后者則由于壓縮了原始模型的深度,導致模型學習能力的下降。
為了在更少的可訓練參數下獲得更好的性能,新加坡國立大學 HPC-AI實驗室在讀博士薛復昭等人提出了一個有效利用可訓練參數的視覺Transformer框架WideNet。WideNet首先通過在Transformer Block之間共享參數來壓縮可訓練參數和深度。為了最大化每個Transformer Block的建模能力,將混合專家(mixture-of-experts,MoE)結構代替前饋網絡。然后,使用參數不共享的多個Layer Norm在Transformer層之間共享MoE層。這樣起到了轉換各種語義表示的作用,使模型更具有參數效率和有效性。
在ImageNet-1K數據集上,采用0.72倍可訓練參數時,WideNet比Vision Transformer 高出1.46%。而在采用0.46×和0.13×可訓練參數時,WideNet仍然比ViT和ViT-MoE分別高出0.83%和2.08%。
8月4日晚6點,「AI新青年講座」第143講邀請到新加坡國立大學HPC-AI實驗室在讀博士薛復昭參與,主講《更少參數下提高視覺Transformer模型性能的通用框架WideNet》。
講者
薛復昭,新加坡國立大學HPC-AI實驗室在讀博士,碩士畢業于南洋理工大學獲得碩士學位,師從 Chng Eng Siong 教授和 Sun Aixin 教授;目前是 Google AI 的學生研究員,與 Yi Tay 和 Mostafa Dehghani 合作;研究興趣主要集中在機器學習、自然語言處理和高性能計算,最近的興趣是設計算法和系統來訓練大型和高效的語言模型。
第143講
主題
更少參數下提高視覺Transformer模型性能的通用框架WideNet
提綱
1、提高視覺Transformer模型性能的方法及局限性
2、在寬度上擴展可訓練參數的MoE架構
3、有效利用可訓練參數的視覺Transformer框架WideNet
4、在0.72倍或0.46倍參數下的性能表現
直播信息
直播時間:8月4日18:00
直播地點:智東西公開課知識店鋪