Diffusion5 [AI 논문 리뷰] Demystifying Flux Architecture 1. 논문이 나온 배경FLUX.1은 Black Forest Labs에서 개발한 최첨단 text-to-image 생성 모델로, Midjourney, DALL·E 3, Stable Diffusion 3, SDXL과 같은 기존 모델들을 뛰어넘는 성능을 보여주고 있습니다. 이 모델은 오픈소스로 공개되어 있음에도 불구하고, 개발사에서 공식적인 기술 문서나 아키텍처에 대한 상세한 설명을 제공하지 않았습니다. 이러한 상황에서 연구자들과 개발자들이 FLUX를 백본 모델로 활용하여 후속 연구 및 개발을 진행하는 데 어려움을 겪고 있었습니다. FLUX.1 이전에는 diffusion 기반 이미지 생성 모델들이 주로 U-Net 아키텍처를 사용했으며, CLIP과 같은 단일 텍스트 인코더에 의존했습니다. 또한 대부분의 모델들이 .. 2025. 12. 9. [AI 논문 리뷰] WURSTCHEN: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALE TEXT-TO-IMAGE DIFFUSION MODELS 1. 논문이 나온 배경최첨단 확산 모델들은 이미지 합성 분야에서 놀라운 성과를 달성하며 사실적인 이미지 생성에 근접했습니다. 하지만 이러한 기반 모델들은 매우 높은 계산 비용을 요구한다는 심각한 단점을 가지고 있었습니다. 예를 들어, Stable Diffusion 1.4는 학습에 150,000 GPU 시간을, SD 2.1은 200,000 GPU 시간을 사용했습니다. 더 경제적인 text-to-image 모델들도 존재했지만, 이들은 낮은 해상도와 전반적인 미적 특성 측면에서 이미지 품질이 떨어진다는 문제가 있었습니다. 이러한 불일치의 핵심 딜레마는 해상도를 높이면 시각적 복잡성과 계산 비용도 함께 증가하여 이미지 합성이 더 비싸지고 데이터 집약적으로 변한다는 점이었습니다. Encoder 기반 Latent .. 2025. 12. 9. [AI 논문 리뷰] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 1. 논문이 나온 배경Stable Diffusion은 텍스트-이미지 생성 분야에서 foundational model로 자리잡으며 3D 분류, 제어 가능한 이미지 편집, 이미지 개인화, 합성 데이터 증강 등 다양한 응용 분야에 활용되어 왔습니다. 심지어 음악 생성이나 fMRI 뇌 스캔으로부터 이미지 재구성 같은 분야까지 확장될 정도로 그 영향력이 광범위했습니다. 그러나 기존 Stable Diffusion 모델들(1.5, 2.1 버전)은 몇 가지 한계점들을 가지고 있었습니다.첫째, 생성된 이미지의 디테일이나 사실성 측면에서 개선의 여지가 있었습니다.둘째, 텍스트 프롬프트에 대한 이해도와 충실도가 완벽하지 않았습니다.셋째, 객체가 잘리는 현상(cropping artifacts)이나 구도상의 문제들이 발생하곤 .. 2025. 12. 9. [AI 논문 리뷰] Grounded Language-Image Pre-training 1. 논문이 나온 배경기존의 시각 인식 모델들은 미리 정해진 고정된 범주(category)의 객체만을 탐지하도록 훈련되었습니다. 이러한 접근 방식은 실제 응용에서 큰 제약이 있었는데, 새로운 시각적 개념이나 도메인으로 일반화하기 위해서는 추가적인 레이블 데이터가 필요했기 때문입니다. 당시 CLIP과 같은 모델이 이미지-텍스트 쌍 데이터를 활용하여 이미지 수준의 표현을 효과적으로 학습할 수 있음을 보여주었지만, 이는 이미지 전체에 대한 분류나 검색 작업에 초점을 맞추고 있었습니다. 그러나 객체 탐지(object detection), 분할(segmentation), 자세 추정(pose estimation) 등 많은 컴퓨터 비전 작업들은 이미지에 대한 세밀한(fine-grained) 이해를 필요로 합니다. 이.. 2025. 12. 9. [AI 논문 리뷰] Denoising Diffusion Probabilistic Models 1. 논문이 나온 배경2020년 당시 딥러닝 기반 생성 모델 분야는 이미 상당한 발전을 이루고 있었습니다. GAN(Generative Adversarial Networks), VAE(Variational Autoencoders), autoregressive 모델, normalizing flow 등이 고품질의 이미지와 오디오 샘플을 생성하는 데 성공했으며, 특히 GAN은 놀라운 시각적 품질을 보여주고 있었습니다. 또한 energy-based 모델링과 score matching 기법도 GAN에 필적할 만한 이미지를 생성할 수 있음을 입증하고 있었습니다. 그러나 diffusion probabilistic models는 이론적으로는 이미 제안되어 있었지만, 실제로 고품질 샘플을 생성할 수 있다는 실증적 증거가 .. 2025. 12. 2. 이전 1 다음