본문 바로가기
Paper Review/Paper Review with AI

[AI 논문 리뷰] Denoising Diffusion Probabilistic Models

by Sangwoo Seo 2025. 12. 2.

1. 논문이 나온 배경

2020년 당시 딥러닝 기반 생성 모델 분야는 이미 상당한 발전을 이루고 있었습니다. GAN(Generative Adversarial Networks), VAE(Variational Autoencoders), autoregressive 모델, normalizing flow 등이 고품질의 이미지와 오디오 샘플을 생성하는 데 성공했으며, 특히 GAN은 놀라운 시각적 품질을 보여주고 있었습니다. 또한 energy-based 모델링과 score matching 기법도 GAN에 필적할 만한 이미지를 생성할 수 있음을 입증하고 있었습니다.

 

그러나 diffusion probabilistic models는 이론적으로는 이미 제안되어 있었지만, 실제로 고품질 샘플을 생성할 수 있다는 실증적 증거가 부족했습니다. Diffusion 모델은 비평형 열역학에서 영감을 받은 잠재 변수 모델로, 데이터에 점진적으로 노이즈를 추가하는 forward process와 이를 역전시켜 샘플을 생성하는 reverse process로 구성되지만, 당시까지는 그 잠재력이 충분히 입증되지 않은 상태였습니다. 연구진은 diffusion 모델이 실제로 고품질 샘플을 생성할 수 있다는 것을 보여주고, 이 모델의 이론적 토대를 더욱 견고하게 만들 필요성을 인식했습니다.

2. 어떤 것을 개선할 것인지

이 논문의 핵심 개선 목표는 크게 세 가지였습니다.

 

첫째, diffusion 모델이 실제로 고품질 이미지를 생성할 수 있음을 실증적으로 입증하는 것이었습니다. 기존에는 diffusion 모델의 샘플 품질이 다른 생성 모델들에 비해 입증되지 않았기 때문에, CIFAR10과 같은 벤치마크 데이터셋에서 state-of-the-art 수준의 성능을 달성하는 것이 목표였습니다.

 

둘째, diffusion 모델의 학습 목적 함수를 재설계하여 샘플 품질을 향상시키는 것이었습니다. 기존의 variational bound를 그대로 사용하는 대신, denoising score matching과의 연결고리를 발견하고 이를 활용한 단순화된 학습 목적 함수를 제안했습니다. 이는 특정 손실 항목에 가중치를 다르게 부여함으로써 모델이 더 어려운 denoising 작업에 집중하도록 만들었습니다.

 

셋째, reverse process의 매개변수화 방식을 개선하는 것이었습니다. 기존 방식은 forward process의 posterior mean을 직접 예측했지만, 본 논문에서는 노이즈 자체를 예측하는 방식으로 전환했습니다. 이러한 재매개변수화는 Langevin dynamics 및 score matching과의 명확한 연결고리를 만들어내며, 실험적으로도 우수한 성능을 보였습니다.

3. 어떤 원리로 개선된 것인지

본 논문의 핵심 개선은 diffusion 모델과 denoising score matching 사이의 새로운 이론적 연결고리를 발견한 것에서 시작됩니다.

 

Diffusion 모델의 기본 구조를 먼저 살펴보면, forward process는 데이터 x₀에 점진적으로 가우시안 노이즈를 추가하는 마르코프 체인입니다. 시간 단계 t에서 노이즈 스케줄 $ βₜ $에 따라 $ q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI) $로 정의됩니다. 이 과정의 중요한 특성은 임의의 시간 t에서의 샘플링이 closed form으로 가능하다는 것입니다. 여기서 $ ᾱₜ $는 누적곱입니다.

 

$$ q(xₜ|x₀) = N(xₜ; √ᾱₜx₀, (1-ᾱₜ)I) $$

 

Reverse process는 노이즈가 추가된 데이터로부터 원본을 복원하는 과정으로, $ pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ, t), Σθ(xₜ, t)) $로 모델링됩니다. 저자들은 공분산을 학습하지 않고 $ σₜ²I $로 고정했는데, $ σₜ² = βₜ $ 또는 $ σₜ² = \frac{(1-ᾱₜ₋₁)}{(1-ᾱₜ)} × βₜ $ 두 가지 선택 모두 유사한 결과를 보였습니다.

 

핵심 혁신: ε-prediction 매개변수화가 가장 중요한 개선입니다. 기존 방식은 평균 $ μ_θ $가 forward process의 posterior mean $ μ̃ₜ $를 직접 예측하도록 했습니다. 그러나 저자들은 $ xₜ(x₀, ε) = √ᾱₜx₀ + √(1-ᾱₜ)ε (여기서 ε ~ N(0,I)) $로 재매개변수화하고, 손실 함수를 분석한 결과 모델이 사실상 노이즈 ε를 예측해야 함을 발견했습니다. 이를 통해 다음과 같은 매개변수화를 제안했습니다:

 

$$  μ_θ(xₜ, t) = \frac{1}{√αₜ} (xₜ - \frac{βₜ}{√(1-ᾱₜ)} ε_θ(xₜ, t)) $$

 

여기서 $ ε_θ $는 신경망이 $ xₜ $로부터 원래 노이즈 $ ε $를 예측하는 함수입니다.

 

단순화된 학습 목적 함수 $ L_{simple}  $은 이러한 통찰에 기반합니다:

 

$$ L_{simple(θ)} = 𝔼_{t,x₀,ε} [‖ε - ε_θ(√ᾱₜ x₀ + √(1-ᾱₜ) ε, t)‖²] $$

 

이는 기존 variational bound의 가중치를 재조정한 것으로, 작은 t 값(노이즈가 적은 경우)에 대한 손실 항의 가중치를 줄이고, 큰 t 값(노이즈가 많은 경우)에 대한 항에 집중하도록 합니다. 이렇게 함으로써 모델은 더 어려운 denoising 작업을 학습하는 데 집중할 수 있습니다.

 

Denoising score matching과의 연결도 중요한 이론적 기여입니다. 제안된 목적 함수는 여러 노이즈 레벨에 걸친 denoising score matching과 형태가 유사하며, 샘플링 과정(Algorithm 2)은 Langevin dynamics와 유사한 구조를 가집니다. 각 단계에서 $ xₜ₋₁ = 1/√αₜ (xₜ - βₜ/√(1-ᾱₜ) εθ(xₜ, t)) + σₜz (z ~ N(0,I)) $로 계산되는데, 이는 학습된 gradient를 사용하는 Langevin dynamics로 해석될 수 있습니다.

4. 실험 결과 및 성능

4-1. 데이터셋 구조

논문에서는 세 가지 주요 데이터셋을 사용하여 실험을 수행했습니다.

 

CIFAR10은 32×32 크기의 컬러 이미지로 구성된 데이터셋으로, 10개의 클래스(비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭)에 걸쳐 총 60,000개의 이미지(훈련 50,000개, 테스트 10,000개)를 포함합니다. 이 데이터셋은 무조건부(unconditional) 생성 모델의 벤치마크로 널리 사용됩니다.

 

CelebA-HQ는 고해상도 얼굴 이미지 데이터셋으로, 본 연구에서는 256×256 해상도를 사용했습니다. 이 데이터셋은 약 30,000개의 유명인 얼굴 이미지로 구성되어 있으며, 높은 품질과 다양성을 가지고 있습니다.

 

LSUN(Large-scale Scene Understanding)은 다양한 장면 카테고리의 대규모 이미지 데이터셋입니다. 본 연구에서는 Church(교회)와 Bedroom(침실) 카테고리를 사용했으며, 256×256 해상도로 학습했습니다. 각 카테고리는 수십만 개의 이미지를 포함하고 있습니다.

 

모든 이미지는 {0, 1, ..., 255} 정수 값에서 [-1, 1] 범위로 선형 스케일링되어 처리되었습니다.

4-2. 성능 평가 지표

논문에서는 세 가지 주요 평가 지표를 사용했습니다.

Inception Score (IS)는 생성된 이미지의 품질과 다양성을 동시에 평가하는 지표입니다. 사전 학습된 Inception 네트워크를 사용하여 계산되며, 높은 점수일수록 좋은 성능을 나타냅니다. CIFAR10에서 본 연구의 Lsimple 모델은 9.46±0.11의 IS를 달성했습니다.

 

Fréchet Inception Distance (FID)는 생성된 이미지 분포와 실제 이미지 분포 간의 거리를 측정합니다. FID는 낮을수록 좋으며, 생성 모델의 품질을 평가하는 가장 신뢰할 수 있는 지표 중 하나로 인정받고 있습니다. 본 연구는 CIFAR10에서 3.17의 state-of-the-art FID를 달성했으며, 이는 당시 StyleGAN2+ADA의 3.26보다도 우수한 결과입니다. LSUN Church에서는 7.89, LSUN Bedroom에서는 4.90의 FID를 기록했습니다.

 

Negative Log-Likelihood (NLL)은 bits per dimension(bits/dim) 단위로 측정되며, 모델이 데이터를 얼마나 잘 압축할 수 있는지를 나타냅니다. CIFAR10 테스트 셋에서 Lsimple 모델은 ≤3.75 bits/dim, variational bound로 학습한 모델은 ≤3.70 bits/dim를 달성했습니다. 흥미롭게도, 샘플 품질이 더 좋은 Lsimple 모델이 더 높은(나쁜) NLL을 가졌는데, 이는 diffusion 모델이 우수한 lossy compressor이지만 lossless compression에서는 최적이 아님을 시사합니다.

성능 분석

Ablation study 결과(Table 2)는 제안된 방법의 각 요소가 중요함을 보여줍니다. ε-prediction과 단순화된 목적 함수 Lsimple의 조합이 가장 좋은 결과를 냈으며(IS 9.46, FID 3.17), 기존의 μ̃-prediction 방식은 variational bound로 학습할 때만 안정적이었습니다(IS 8.06, FID 13.22).

 

Progressive generation 분석에서는 reverse process 동안 큰 스케일의 특징이 먼저 나타나고 세부 사항이 나중에 생성됨을 확인했습니다. Rate-distortion 분석 결과, 전체 코드 길이의 절반 이상(1.97 bits/dim 중 1.78 bits/dim)이 인지하기 어려운 세부 사항을 표현하는 데 사용되었습니다.

 

Interpolation 실험에서는 두 이미지의 잠재 표현을 선형 보간한 후 reverse process를 적용하여 자연스러운 중간 이미지를 생성할 수 있음을 보였습니다. 보간된 이미지는 포즈, 피부톤, 헤어스타일, 표정, 배경 등의 속성이 부드럽게 변화했습니다.

5. 향후 연구 방향성 및 해결하지 못한 과제

논문에서는 몇 가지 한계점과 향후 연구 방향을 제시하고 있습니다.

 

Likelihood 성능의 한계가 가장 명확한 미해결 과제입니다. Diffusion 모델은 뛰어난 샘플 품질을 보이지만, lossless codelength 측면에서는 다른 likelihood-based 모델들(autoregressive 모델 등)에 비해 경쟁력이 부족합니다. 저자들은 이것이 diffusion 모델이 본질적으로 lossy compression에 특화된 inductive bias를 가지고 있기 때문이라고 분석했습니다. 전체 codelength의 절반 이상이 인지할 수 없는 세부 사항을 표현하는 데 사용되고 있습니다.

 

샘플링 속도 개선도 중요한 과제입니다. 본 연구에서는 T=1000 단계의 신경망 평가가 필요하므로, 샘플 생성에 상당한 시간이 소요됩니다. 이는 GAN과 같이 단일 forward pass만으로 샘플을 생성하는 모델들에 비해 큰 단점입니다. 저자들은 diffusion 길이를 줄이거나 더 효율적인 샘플링 전략을 개발할 필요성을 언급했습니다.

 

더 강력한 decoder의 통합 가능성도 제시되었습니다. 현재는 단순한 가우시안 기반 decoder를 사용하지만, conditional autoregressive 모델과 같은 더 강력한 decoder를 통합하면 성능이 더욱 향상될 수 있습니다.

 

다른 데이터 모달리티로의 확장이 향후 연구 방향으로 제시되었습니다. 본 연구는 주로 이미지에 집중했지만, diffusion 모델이 이미지 데이터에 대해 우수한 inductive bias를 가지고 있다면, 오디오, 비디오, 텍스트 등 다른 데이터 유형에서도 유용할 수 있습니다.

 

조건부 생성 및 제어 가능성도 탐구할 영역입니다. 본 연구는 대부분 무조건부 생성에 초점을 맞췄지만, 클래스 조건부 생성이나 더 세밀한 제어 메커니즘을 개발하면 실용성이 크게 향상될 것입니다.

 

Variance 학습의 안정화가 필요합니다. Ablation study에서 reverse process의 분산을 학습하려는 시도가 불안정한 학습과 낮은 샘플 품질로 이어졌습니다. 이를 안정적으로 학습할 수 있는 방법을 찾으면 모델의 표현력이 향상될 수 있습니다.

 

마지막으로 이론적 이해의 심화도 중요합니다. Diffusion 모델과 score matching, energy-based 모델, autoregressive 모델 간의 연결이 발견되었지만, 이러한 연결의 더 깊은 의미와 실용적 함의를 이해하는 것이 향후 연구의 중요한 방향이 될 것입니다.