「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

「智猩猩AI新青年講座」現已完結254講,錯過往期講座直播的朋友,可以點擊文章底部 “ 閱讀原文 ” 進行回看!

近年來擴散模型的快速發展,圖像生成、視頻生成、3D生成等任務取得了重大進展。然而一個核心問題也隨之浮現:如何有效且高效地微調預訓練的基礎擴散模型,并將其應用于新任務。現有的微調方法可分為附加型微調方法(AFT)、重參數化微調方法(RFT)以及選擇性微調方法(SFT)。AFT和RFT方法都需要針對不同模型進行特定設計,以及根據具體任務調整隱藏維度或秩值。而SFT方法不僅引入了較高的延遲,還對參數選擇的超參數敏感,在效果和訓練效率方面表現不佳。

針對上述問題,上海交通大學在讀博士胡騰聯合騰訊優圖實驗室研究人員提出了一種新穎的高效微調方法SaRA(Sparse Low-Rank Adaptation),其專門為預訓練擴散模型設計,現已開源。該方法是基于漸進稀疏低秩適應的高效微調,利用基于核范數的低秩損失來有效防止模型過擬合,同時引入漸進訓練策略,以充分利用無效參數,從而使模型在學習新知識的同時不影響其原有的泛化能力。

只需修改一行代碼即可實現高效微調!上海交大&騰訊開源擴散模型微調方法SaRA | 智猩猩AI新青年講座預告
只需修改一行代碼即可實現高效微調!上海交大&騰訊開源擴散模型微調方法SaRA | 智猩猩AI新青年講座預告

SaRA 的顯著特點是其引入了非結構化反向傳播策略,這使得它在對擴散模型微調過程中顯著減少了內存消耗。通過將可訓練參數分離為葉節點,使得模型的所有參數梯度能夠流入少量的可訓練參數中,避免了為整個參數矩陣保留梯度的需求,這大大簡化了預訓練模型微調的復雜性和工作量。

只需修改一行代碼即可實現高效微調!上海交大&騰訊開源擴散模型微調方法SaRA | 智猩猩AI新青年講座預告

SaRA不僅實現了低內存消耗,還實現了很好的代碼集成,只需要修改一行代碼即可實現高效的擴散模型微調。結果表明,SaRA相較于其他微調方法能夠更好地學習到下游任務的知識,并最大化維護模型的先驗信息,其高效性、簡便性和實用性,不僅解決了如何高效利用預訓練擴散模型中無效參數的問題,還為未來在各種下游任務中應用擴散模型提供了新的可能性。

只需修改一行代碼即可實現高效微調!上海交大&騰訊開源擴散模型微調方法SaRA | 智猩猩AI新青年講座預告

11月27日19點,智猩猩邀請到論文一作、上海交通大學在讀博士胡騰參與「智猩猩AI新青年講座」255講,主講《擴散模型高效微調方法SaRA與顯存占用優化》。

主講人

胡騰

上海交通大學在讀博士

師從易冉助理教授,從事圖像、視頻等可視媒體的內容生成研究,主要研究圖像、視頻可控生成。 入選首屆《中國電子學會-騰訊博士生科研激勵計劃》。目前以第一作者、學生第一作者、共同第一作者在CCF A類會議或期刊上發表高水平論文8篇,共計發表10篇高水平論文。

第255講

主 題
擴散模型高效微調方法SaRA與顯存占用優化
提 綱
1、現有擴散模型微調方法及局限性
2、擴散模型中無效參數分析及潛在有效性
3、基于無效參數重用的微調方法
4、通過非結構化反向傳播降低微調顯存
5、基礎模型提升與下游任務微調

直 播 信 息

直播時間:11月27日19:00
直播地點:智猩猩知識店鋪

成果

論文標題
《SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-rank Adaptation》
論文鏈接
//arxiv.org/pdf/2409.06633
項目網站
//sjtuplayer.github.io/projects/SaRA/

報名方式

對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進行報名。已添加過米婭的老朋友,可以給米婭私信,發送“ANY255”即可報名。

我們會為審核通過的朋友推送直播鏈接。同時,本次講座也組建了學習群,直播開始前會邀請審核通過的相關朋友入群交流。

只需修改一行代碼即可實現高效微調!上海交大&騰訊開源擴散模型微調方法SaRA | 智猩猩AI新青年講座預告