1. 논문이 나온 배경
Stable Diffusion은 텍스트-이미지 생성 분야에서 foundational model로 자리잡으며 3D 분류, 제어 가능한 이미지 편집, 이미지 개인화, 합성 데이터 증강 등 다양한 응용 분야에 활용되어 왔습니다. 심지어 음악 생성이나 fMRI 뇌 스캔으로부터 이미지 재구성 같은 분야까지 확장될 정도로 그 영향력이 광범위했습니다.
그러나 기존 Stable Diffusion 모델들(1.5, 2.1 버전)은 몇 가지 한계점들을 가지고 있었습니다.
- 첫째, 생성된 이미지의 디테일이나 사실성 측면에서 개선의 여지가 있었습니다.
- 둘째, 텍스트 프롬프트에 대한 이해도와 충실도가 완벽하지 않았습니다.
- 셋째, 객체가 잘리는 현상(cropping artifacts)이나 구도상의 문제들이 발생하곤 했습니다.
또한 당시 이미지 생성 분야에서는 black-box 모델들이 state-of-the-art 성능을 보이고 있었지만, 이러한 폐쇄적 접근 방식은 재현성을 저해하고 혁신을 제한하며, 모델의 편향성과 한계를 객관적으로 평가하기 어렵게 만들었습니다. 따라서 투명성과 접근성을 유지하면서도 경쟁력 있는 성능을 달성하는 오픈 모델의 필요성이 대두되었습니다.
2. 그래서 어떤 것을 개선할 것인지?
SDXL은 크게 다섯 가지 측면에서 이전 Stable Diffusion 모델들을 개선하고자 했습니다.
첫째, 모델 아키텍처와 스케일의 개선입니다. 기존 모델의 UNet backbone을 3배 크게 확장하여 더 풍부한 표현력을 확보하고자 했습니다. 또한 더 강력한 텍스트 인코더를 사용하여 텍스트 이해 능력을 향상시키고자 했습니다.
둘째, 훈련 데이터 활용의 효율성 개선입니다. 기존 방식에서는 최소 해상도 이하의 이미지들을 버리거나 업스케일링해야 했는데, 이는 훈련 데이터의 39%를 손실하거나 품질 저하를 초래했습니다. 이를 해결하기 위한 방법이 필요했습니다.
셋째, 객체 잘림 현상(cropping artifacts)의 해결입니다. 랜덤 크로핑을 통한 데이터 증강 과정에서 발생하는 이 문제는 고양이 머리가 잘리는 등의 부자연스러운 결과를 만들어냈습니다.
넷째, 다양한 화면 비율 지원입니다. 실제 세계에서는 16:9 landscape나 portrait 형식의 이미지가 널리 사용되지만, 기존 모델들은 주로 512×512나 1024×1024 같은 정사각형 해상도만을 다뤘습니다.
다섯째, 세부 디테일의 품질 향상입니다. 특히 배경의 섬세함이나 인간 얼굴의 사실성 같은 고주파 디테일을 개선하고자 했습니다.
3. 어떤 원리로 개선된 것인지?
3.1 아키텍처 및 스케일 개선
SDXL은 UNet backbone의 파라미터 수를 기존 860M에서 2.6B로 약 3배 증가시켰습니다. 이는 transformer block의 배치를 최적화함으로써 이루어졌습니다. 구체적으로, 가장 높은 feature level에서는 transformer block을 생략하고, 중간 레벨에서는 2개와 10개의 블록을 사용하며([0, 2, 10] 구조), 가장 낮은 레벨(8× downsampling)은 아예 제거했습니다. 이는 Hoogeboom et al.의 연구를 따라 대부분의 transformer 계산을 lower-level feature로 이동시킨 것입니다.
텍스트 인코더도 크게 강화되었습니다. OpenCLIP ViT-bigG와 CLIP ViT-L을 함께 사용하여, penultimate layer의 출력을 channel 축으로 연결했습니다. 이로써 context dimension이 2048로 확대되었습니다. 또한 OpenCLIP의 pooled text embedding을 추가적인 conditioning으로 활용했습니다. 전체 텍스트 인코더의 파라미터는 817M에 달합니다.
3.2 Micro-Conditioning
Size-Conditioning: 원본 이미지의 해상도 정보(원래 높이, 너비)를 모델에 conditioning으로 제공합니다. 각 차원을 Fourier feature encoding으로 임베딩한 후 concatenate하여 timestep embedding에 더해줍니다. 이를 통해 작은 해상도의 이미지도 버리지 않고 훈련에 활용할 수 있으며, 추론 시에는 사용자가 원하는 apparent resolution을 제어할 수 있습니다.
ImageNet 512×512 실험에서 이 방식의 효과가 검증되었습니다. 512 픽셀 이하 이미지를 모두 버린 모델(CIN-512-only)은 70k 이미지만으로 훈련되어 FID 43.84를 기록했습니다. Size conditioning 없이 모든 데이터를 사용한 모델(CIN-nocond)은 FID 39.76, IS 211.50을 달성했습니다. 반면 size conditioning을 적용한 모델(CIN-size-cond)은 FID 36.53, IS 215.34로 가장 우수한 성능을 보였습니다.
Crop-Conditioning: 훈련 중 random cropping에서 발생하는 top-left 좌표(ctop, cleft)를 Fourier embedding으로 인코딩하여 conditioning으로 제공합니다. 이는 cropping이 데이터 증강으로서의 이점은 유지하면서도, 그것이 생성 과정에 누출되는 것을 방지합니다. 추론 시에는 (0, 0)으로 설정하여 object-centered 샘플을 얻거나, 값을 조정하여 cropping 정도를 제어할 수 있습니다.
3.3 Multi-Aspect Training
실제 데이터셋의 다양한 종횡비를 반영하기 위해, 픽셀 수를 1024²에 가깝게 유지하면서 높이와 너비를 64의 배수로 조정한 여러 aspect ratio bucket을 만듭니다(예: 512×2048부터 2048×512까지 총 40개 버전). 각 훈련 배치는 같은 bucket의 이미지들로 구성되며, 매 step마다 bucket을 번갈아 사용합니다. Bucket size는 car = (htgt, wtgt) 형태로 모델에 conditioning됩니다. 실제 구현에서는 고정 aspect ratio로 pretraining한 후, finetuning 단계에서 multi-aspect training을 적용합니다. Size-, crop-conditioning과 결합할 때는 channel 축으로 concatenation하여 사용합니다.
3.4 개선된 Autoencoder
SDXL은 더 큰 배치 사이즈(기존 9에서 256으로)로 훈련하고 exponential moving average로 가중치를 추적한 새로운 autoencoder를 사용합니다. COCO2017 validation split에서 256×256 이미지로 평가한 결과, SDXL-VAE는 PSNR 24.7, SSIM 0.73, LPIPS 0.88, rFID 4.4를 기록하여 SD-VAE 1.x와 2.x를 모두 능가했습니다.
3.5 Two-Stage Pipeline
Base SDXL 모델에서 생성한 128×128 latent를 대상으로, specialized high-resolution refinement model을 사용해 SDEdit 기법을 적용합니다. Refinement model은 고품질, 고해상도 데이터에 특화되어 있으며, 처음 200개의 discrete noise scale에 전문화되어 있습니다. 같은 텍스트 프롬프트를 사용하여 latent space에서 직접 diffusion과 denoising을 수행합니다.
4. 실험 결과 및 성능
4-1. 어떤 데이터셋인지? 데이터셋의 구조는?
SDXL은 내부 데이터셋에서 훈련되었으며, 논문에서는 이 데이터셋의 높이-너비 분포를 시각화했습니다. 이 데이터셋은 매우 다양한 해상도와 종횡비를 가진 이미지들을 포함하고 있으며, 256 픽셀 미만의 edge를 가진 이미지들이 전체의 약 39%를 차지합니다.
훈련 과정은 다단계로 진행되었습니다:
- 1단계: 256×256 해상도에서 600,000 step, 배치 사이즈 2048
- 2단계: 512×512 해상도에서 200,000 step 추가 훈련
- 3단계: Multi-aspect training을 offset-noise level 0.05와 함께 적용하여 약 1024×1024 영역의 다양한 aspect ratio로 훈련
평가를 위해서는 다음 데이터셋들이 사용되었습니다:
PartiPrompts (P2) 벤치마크: 다양한 난이도의 프롬프트를 포함하며, 6개 카테고리(Food & Beverage, Animals, Artifacts, Arts, Illustrations, Abstract)와 10개 challenge(Imagination, Writing & Symbols, Quantity, Complex, Fine-grained Detail, Perspective, Style & Format, Simple Detail, Linguistic Structures, Properties & Positioning)로 구성됩니다.
COCO2017: FID 및 CLIP score 평가에 사용되었으며, 10k 생성 샘플로 측정했습니다.
ImageNet: Size-conditioning의 효과를 검증하기 위해 class-conditional 512×512 실험에 사용되었습니다.
4-2. 성능 평가지표는 무엇인지?
사용자 선호도 연구: 가장 중요한 평가 지표로, AWS GroundTruth taskforce를 통해 수행되었습니다. SDXL과 다른 모델들의 생성 결과를 프롬프트 준수도 기준으로 비교했습니다.
기존 Stable Diffusion 버전과의 비교:
- SDXL w/ refiner: 48.44% 선호
- SDXL base: 36.93% 선호
- Stable Diffusion 1.5: 7.91% 선호
- Stable Diffusion 2.1: 6.71% 선호
Midjourney v5.1과의 비교: 17,153회의 사용자 선호도 비교에서 SDXL이 54.9%의 선호도를 얻었습니다. PartiPrompts의 6개 카테고리 중 4개에서 SDXL이 우수했고, 10개 challenge 중 7개에서 동등하거나 더 나은 성능을 보였습니다.
FID (Fréchet Inception Distance): COCO2017 validation split에서 측정했으나, 흥미롭게도 SDXL의 FID 점수는 SD 1.5나 SD 2.1보다 높게(즉, 더 나쁘게) 나왔습니다. 이는 Kirstain et al.의 연구 결과를 뒷받침하며, FID가 foundational text-to-image 모델의 시각적 미학을 평가하는 데 적합하지 않음을 보여줍니다.
CLIP Score: OpenCLIP ViT g-14로 측정했으며, SDXL이 이전 버전들보다 약간 개선된 텍스트-이미지 정렬을 보였지만, 그 차이는 사용자 평가 결과만큼 극적이지 않았습니다.
ImageNet 지표:
- FID-5k: CIN-size-cond가 36.53으로 가장 낮음
- IS-5k: CIN-size-cond가 215.34로 가장 높음
Autoencoder 재구성 성능 (COCO2017 256×256):
- PSNR (Peak Signal-to-Noise Ratio): 높을수록 좋음
- SSIM (Structural Similarity Index): 높을수록 좋음
- LPIPS (Learned Perceptual Image Patch Similarity): 낮을수록 좋음
- rFID (reconstruction FID): 낮을수록 좋음
질적 평가로는 다양한 프롬프트에서의 샘플 품질, cropping artifacts의 제거, multi-aspect ratio 생성 능력, refinement model을 통한 디테일 개선 등을 시각적으로 비교했습니다.
5. 향후 연구 방향성 및 해결하지 못한 과제는?
해결하지 못한 한계점들
- 복잡한 구조 합성의 어려움: 인간의 손과 같은 복잡한 구조를 일관되게 정확히 생성하는 데 여전히 어려움이 있습니다. 이는 훈련 데이터에서 손이 매우 다양한 형태로 나타나 실제 3D 형태와 물리적 제약을 모델이 추출하기 어렵기 때문입니다.
- 완벽한 포토리얼리즘의 미달성: 미묘한 조명 효과나 텍스처의 세밀한 변화 같은 nuance들이 여전히 부족하거나 충실하게 재현되지 않습니다.
- 사회적·인종적 편향: 대규모 데이터셋에 의존하는 훈련 과정이 inadvertently 편향을 도입하거나 증폭시킬 수 있습니다.
- Concept Bleeding: 여러 객체나 주체가 포함된 샘플에서 서로 다른 시각적 요소들이 의도치 않게 섞이는 현상이 발생합니다. 예를 들어 "blue hat"과 "red gloves"를 요청했는데 blue gloves와 red hat이 생성되는 경우입니다. 이는 사전 훈련된 텍스트 인코더가 모든 정보를 단일 토큰으로 압축하면서 올바른 속성-객체 바인딩에 실패하거나, contrastive loss가 배치 내 다른 바인딩을 가진 negative example을 필요로 하기 때문일 수 있습니다.
- 긴 텍스트 렌더링의 어려움: 생성된 텍스트에 랜덤 문자가 포함되거나 일관성이 떨어지는 경우가 있습니다.
향후 연구 방향
- Single-stage 모델: 현재는 best quality를 위해 base model과 refinement model의 two-stage approach를 사용하는데, 이는 두 개의 큰 모델을 메모리에 로드해야 하여 접근성과 샘플링 속도를 저해합니다. 동등하거나 더 나은 품질의 single-stage 솔루션 개발이 필요합니다.
- 텍스트 합성 개선: OpenCLIP ViT-bigG 같은 더 큰 텍스트 인코더가 도움이 되었지만, byte-level tokenizer를 통합하거나 모델 규모를 더 확장하면 텍스트 렌더링 능력을 더욱 향상시킬 수 있을 것입니다.
- 아키텍처 탐색: UViT나 DiT 같은 transformer 기반 아키텍처를 실험했지만 즉각적인 이점을 찾지 못했습니다. 그러나 신중한 하이퍼파라미터 연구를 통해 훨씬 더 큰 transformer 중심 아키텍처로의 스케일링이 가능할 것으로 기대됩니다.
- Distillation: 개선된 성능이 추론 비용(VRAM과 샘플링 속도 모두) 증가라는 대가를 치르므로, guidance distillation, knowledge distillation, progressive distillation 등을 통해 추론 계산량을 줄이고 샘플링 속도를 높이는 연구가 필요합니다.
- EDM 프레임워크 적용: 현재 모델은 discrete-time formulation으로 훈련되며 미학적으로 만족스러운 결과를 위해 offset-noise가 필요합니다. Karras et al.의 EDM 프레임워크는 continuous time formulation을 통해 샘플링 유연성을 높이고 noise-schedule correction이 필요 없어 유망한 대안이 될 수 있습니다.
- 세밀한 디테일 특화 훈련: 손과 같은 복잡한 구조 합성을 위한 추가 스케일링과 특화된 훈련 기법이 필요합니다.
- 편향 완화: 훈련 데이터와 모델 출력의 사회적·인종적 편향을 공정하고 객관적으로 평가하고 완화하는 방법론 개발이 필요합니다.
이러한 방향들은 SDXL이 이미 달성한 significant improvements를 기반으로, 더욱 효율적이고 정확하며 책임감 있는 text-to-image 생성 모델로 발전하기 위한 로드맵을 제시합니다.
'Paper Review > Paper Review with AI' 카테고리의 다른 글
| [AI 논문 리뷰] Demystifying Flux Architecture (0) | 2025.12.09 |
|---|---|
| [AI 논문 리뷰] WURSTCHEN: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALE TEXT-TO-IMAGE DIFFUSION MODELS (1) | 2025.12.09 |
| [AI 논문 리뷰] YOLOE: Real-Time Seeing Anything (1) | 2025.12.09 |
| [AI 논문 리뷰] Grounded Language-Image Pre-training (0) | 2025.12.09 |
| [AI 논문 리뷰] Denoising Diffusion Probabilistic Models (0) | 2025.12.02 |