「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

「智猩猩AI新青年講座」現已完結255講,錯過往期講座直播的朋友,可以點擊文章底部 “ 閱讀原文 ” 進行回看!

近年來,擴散模型在人工智能生成內容(AIGC)方面取得了重大進展。一方面,與GAN等經典模型不同,擴散模型迭代地細化噪聲向量,從而產生具有精細細節的高質量結果。另一方面,經過大規模數據的訓練,這些模型在輸入條件和輸出結果之間表現出令人滿意的一致性。這些能力推動了文本到圖像生成的快速進展,然而現代擴散模型的出色生成性能嚴重依賴自注意力機制處理復雜空間關系。這種現有范式由于復雜度隨圖像分辨率呈二次增長,在生成高分辨率視覺內容時面臨顯著挑戰。

為解決上述問題,新加坡國立大學在讀博士劉松樺提出了LinFusion架構,以一種新穎的廣義線性注意力機制作為傳統自注意力替代方案。 LinFusion 僅經過適度訓練即可實現與原始Stable Diffusion(SD) 相當甚至更好的性能,同時顯著降低了時間和內存復雜度,可以在1塊GPU上生成16K超高分辨率圖像。代碼現已開源。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告

作者通過研究近期提出的線性復雜性模型,如Mamba、Mamba2和門控線性注意力,確定了兩個關鍵特性:注意力規范化和非因果推理,這些特性顯著提升了高分辨率視覺生成的性能。在此基礎上,引入了一種廣義線性注意力范式,這是常見線性標記混合器的低秩近似。同時為降低訓練成本并充分利用預訓練模型,作者從預訓練的SD中提取知識并初始化模型。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告
1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告

實驗結果表明,經過適度訓練的LinFusion,大幅減少了推理時間和內存消耗。尤其是在生成16K分辨率圖像時,模型能夠高效運行,僅需1塊GPU、1分鐘即可生成且生成質量優異。同時作者在SD-v1.5、SD-v2.1和SD-XL等版本上的測試顯示,LinFusion能夠生成16K分辨率等高質量圖像,并表現出優異的零樣本跨分辨率生成能力。此外,該模型無需額外調整即可兼容SD預訓練插件(如ControlNet和IP Adapter)。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告
1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告

12月3日10點,智猩猩邀請到論文一作、新加坡國立大學在讀博士劉松樺參與「智猩猩AI新青年講座」256講,主講《16K超高清圖像生成——預訓練擴散模型高效線性化》。

主講人

劉松樺

新加坡國立大學在讀博士生

師從王鑫超教授,本科畢業于南京大學。研究方向為高效數據合成以及使用合成數據進行高效訓練。曾在CVPR、ICCV、NeurIPS、ICML、以及IEEE TPAMI等國際會議、期刊上以第一作者身份發表論文10余篇。2023年度國家優秀自費留學生獎學金獲得者。

第256講

主 題
16K超高清圖像生成——預訓練擴散模型高效線性化
提 綱
1、主流視覺擴散模型與Mamba2回顧
2、注意力規范化及非因果推理關鍵特征解析
3、廣義線性注意力機制的設計與實現
4、實際應用與生成效果分析
5、在Diffusion Transformer模型上的擴展延伸

直 播 信 息

直播時間:12月3日10:00
直播地點:智猩猩知識店鋪

成果

論文標題
《LinFusion: 1 GPU, 1 Minute, 16K Image》
論文鏈接
//arxiv.org/abs/2409.02097
項目網站
//lv-linfusion.github.io/

報名方式

對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進行報名。已添加過米婭的老朋友,可以給米婭私信,發送“ANY256”即可報名。

我們會為審核通過的朋友推送直播鏈接。同時,本次講座也組建了學習群,直播開始前會邀請審核通過的相關朋友入群交流。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預告