最近,文本到圖像的擴散模型取得了顯著的進步。值得注意的是,Stable Diffusion和DeepFloyd-IF是當前開源社區中最成功的兩個擴散模型。這些模型基于UNet架構,用途廣泛,可應用于廣泛的任務,包括圖像編輯、超分辨率、分割和對象檢測。擴散模型的主要缺點之一是圖像生成的推理時間較慢。現有方法大多采用了蒸餾技術,但這些方法對計算資源要求較高。
為了解決以上問題,來自南開大學的在讀博士生李森茂提出了一種基于擴散模型編碼器模塊的推理加速的方法Faster Diffusion。相關論文為《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》,已收錄于NeurIPS 2024。

Faster Diffusion是一種簡單而有效的編碼器傳播方案,以加速針對不同任務集的擴散采樣。其核心是在多個時間步中重復使用編碼器特征,加速了擴散模型的采樣過程。
擴散模型中的一個關鍵組件是用于噪聲預測的UNet。通過分析UNet在擴散模型中的特性,發現編碼器特征在相鄰時間步之間變化平緩,具有高度相似性。
為了實現無訓練的加速擴散模型推理,Faster Diffusion通過在相鄰時間步省略編碼器計算,并重用前一步的編碼器特征作為解碼器輸入;進而并行執行解碼器計算,進一步加速去噪過程。
雖然編碼器傳播可以提高推理階段的效率,但觀察到它會導致生成結果中的紋理信息的輕微丟失。所以還引入了一種先驗噪聲注入方法來改善生成圖像中的紋理細節。
實驗證明,在不使用任何知識蒸餾技術的情況下,Faster Diffusion分別加速了StableDiffusion(SD)和DeepFloyd-IF模型的推理,速度提升了41% 和 24%;DiT模型的推理速度提升了34%,同時保持了高質量的生成性能。

11月1日10點,智猩猩邀請到論文一作、南開大學在讀博士生李森茂參與「智猩猩AI新青年講座」254講,主講《基于擴散模型編碼器模塊的推理加速》。
講者
李森茂
南開大學在讀博士生
導師是王亞星副教授。期間在巴塞自治大學LAMP組做過短期實習,導師為Joost van de Weijer。在此之前,在南開大學計算機學院獲得碩士學位。主要研究包括生成模型、圖像生成和圖像到圖像的轉換等課題。
第254講
主題
基于擴散模型編碼器模塊的推理加速
提綱
1、目前擴散模型推理速度慢的問題
2、UNet編碼器和解碼器在不同時間步的分析
3、并行處理加速擴散模型推理方案FasterDiffusion
4、實驗效果展示
直播信息
直播時間:11月1日10:00
成果
論文標題
《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》
論文鏈接
//arxiv.org/pdf/2312.09608
項目網站
//sen-mao.github.io/FasterDiffusion
如何報名
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY254”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。
