「AI新青年講座」由智東西公開課出品,致力于邀請青年學者,主講他們在生成式AI、LLM、計算機視覺、機器學習等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

7月起,AI 新青年講座開辟推出「大型語言模型專場」。阿卜杜拉國王科技大學在讀博士朱德堯、新加坡國立大學在讀博士薛復昭、美國威斯康星大學麥迪遜分校在讀博士柳昊天和加州大學伯克利分校人工智能實驗室(BAIR)在讀博士張天均將參與此次專場。

四位 AI 新青年將分別針對 MiniGPT-4、LLaMA、Gorilla,以及大型語言模型所面臨的 Token 危機進行直播講解。

在大型語言模型(LLMs)的研究中,近期的研究強調了數據集大小在擴展語言模型能力中的重要性。然而,在預訓練期間,LLMs 對標記的需求量十分巨大,并且網絡上的高質量文本數據已接近 LLMs 的擴展限制。為進一步增強 LLMs 的能力,一個簡單的方法是將預訓練數據重復使用多個 epoch。

新加坡國立大學的研究人員從實證角度探討了這一方法的三個關鍵方面。首先,他們研究了多次重復預訓練數據可能帶來的后果,發現模型容易過擬合,從而導致多 epoch 的性能下降。其次,他們也分析了導致多 epoch 性能下降的關鍵因素,發現顯著的因素包括數據集大小、模型參數和訓練目標,而數據集質量和模型 FLOPs 的影響較小。

最后,他們探討了廣泛使用的正則化方法是否能夠緩解多次 epoch 下降。實驗證明,大多數正則化技術并沒有顯著改進性能,唯有 dropout 表現出了卓越的效果,但在擴大模型規模時需要進行謹慎調整。此外,他們還發現利用混合專家(MoE)能夠實現對具有相近可訓練參數的計算密集型密集型 LLMs 進行具有成本效益和高效的超參數調整,這對更廣泛范圍上的高效 LLM 開發可能產生重要影響。

7月18日晚7點,新加坡國立大學在讀博士薛復昭,將圍繞主題《大型語言模型的 Token 危機》向大家分享他們針對此問題的研究。

薛復昭首先將介紹重復使用預訓練數據進行額外迭代影響是什么?進而分析預訓練大模型的性能下降原因,之后將講解降低多 epochs 影響的方法:正則化(Dropout ),以及基于混合專家(MoE)的超參數調整等。最后,他也將對 LLM 高效開發的未來進行探討。

第二講

主 題
《大型語言模型的 Token 危機》

提 綱
1、大型語言模型訓練中epoch次數設置問題
2、預訓練大模型的性能下降原因分析
3、Dropout 及基于專家混合 MoE 的最佳超參數調整
4、對 LLM 高效開發的未來探討

主 講 人
 薛復昭,新加坡國立大學在讀博士;師從新加坡國立大學(NUS)尤洋教授;碩士(研究型)畢業于南洋理工大學(NTU),師從Chng Eng-Siong和孫愛欣教授;目前主要研究方向為 Large Language Model Pre-training、Transformer Scaling 和 Conditional Computation;有幸與各個科技巨頭的杰出科學家合作,曾在Google Brain擔任學生研究員,受到Yi Tay和Mostafa Dehghani的指導;目前在英偉達AI研究院實習,導師為Jim Fan和Yuke Zhu。

直 播 時 間
7月18日19:00