在圖像生成領域,高分辨率圖像的生成一直是一個具有挑戰性的工作。Stable Diffusion等強大的預訓練擴散模型目前可以生成1024×1024像素的高質量圖像。但生成更高分辨率的圖像(2K-4K)會遇到不合理的重復物體問題,并且生成時間成倍增加。

為解決這些問題,曠視研究院高級研究員張慎等研究人員提出了一個無需訓練的更高分辨率圖像生成框架 HiDiffusion。該框架通過動態調整特征圖大小來解決重復物體問題,同時改進自注意力機制實現推理速度的提升。相關論文為《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》,已收錄于ECCV 2024。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告

HiDiffusion框架主要由兩部分組成:分辨率感知U-Net(RAU-Net)和改進的移動窗口多頭自注意力 (MSW-MSA)。

RAU-Net通過動態調整特征圖的大小來解決高分辨率圖像生成中的對象重復問題。這種調整是為了匹配U-Net深層塊中卷積的感受野,從而確保在生成更高分辨率圖像時不會發生特征重復而導致不合理的對象重復現象。

MSW-MSA通過使用更大的窗口來減少不必要的計算,并動態移動窗口來優化自注意力機制。這種方法可以更有效地利用計算資源,同時保持對全局信息的捕捉。

HiDiffusion可以集成到各種預訓練擴散模型中,將圖像生成分辨率擴展到2K-4K,同時推理速度是以前方法的1.5-6倍。大量實驗表明,HiDiffusion框架可以解決對象重復和計算量大的問題,并且在更高分辨率圖像生成任務上達到最好的性能。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告

講者

張慎

曠視南京研究院高級研究員

碩士畢業于南京大學。研究方向為計算機視覺,主要包括擴散模型、模型加速等,曾在計算機視覺國際競賽中獲得一項冠軍,一項亞軍,在 CVPR, ECCV上發表多篇論文。

第2講

主題

HiDiffusion:高效、無需訓練的更高分辨率圖像生成框架

提綱

1、擴散模型目前存在的更高分辨率生成問題
2、RAU-Net解決圖像生成中物體重復問題
3、MSW-MSA解決更高分辨率的效率問題
4、更高分辨率的圖像生成結果和效率展示

直播信息

直播時間:10月24日10:00

成果

論文標題
 《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》

論文鏈接
//arxiv.org/abs/2311.17528v2

項目網站
//hidiffusion.github.io/

如何報名

有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺2402”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告