본문 바로가기

ComputerVision6

[AI 논문 리뷰] RF-DETR: Neural Architecture Search for Real-Time Object Detection 1. 논문이 나온 배경RF-DETR 논문은 현재 객체 탐지 분야가 직면한 몇 가지 중요한 문제점들을 해결하기 위해 등장했습니다. 먼저 GroundingDINO나 YOLO-World같은 open-vocabulary detector들은 COCO 데이터셋에서는 인상적인 성능을 보이지만, 사전 학습에서 흔히 볼 수 없는 분포 외(out-of-distribution) 클래스가 포함된 실제 데이터셋으로 일반화하는 데 실패하는 경향이 있습니다. 이러한 비전-언어 모델(VLM)들을 새로운 도메인에 파인튜닝하면 도메인 내 성능은 크게 향상되지만, 무거운 텍스트 인코더로 인해 런타임 효율성이 떨어지고 오픈 보캐뷸러리 일반화 능력을 잃게 됩니다. 반면 D-FINE이나 RT-DETR 같은 전문화된(specialist) 객체 .. 2025. 12. 22.
[AI 논문 리뷰] Demystifying Flux Architecture 1. 논문이 나온 배경FLUX.1은 Black Forest Labs에서 개발한 최첨단 text-to-image 생성 모델로, Midjourney, DALL·E 3, Stable Diffusion 3, SDXL과 같은 기존 모델들을 뛰어넘는 성능을 보여주고 있습니다. 이 모델은 오픈소스로 공개되어 있음에도 불구하고, 개발사에서 공식적인 기술 문서나 아키텍처에 대한 상세한 설명을 제공하지 않았습니다. 이러한 상황에서 연구자들과 개발자들이 FLUX를 백본 모델로 활용하여 후속 연구 및 개발을 진행하는 데 어려움을 겪고 있었습니다. FLUX.1 이전에는 diffusion 기반 이미지 생성 모델들이 주로 U-Net 아키텍처를 사용했으며, CLIP과 같은 단일 텍스트 인코더에 의존했습니다. 또한 대부분의 모델들이 .. 2025. 12. 9.
[AI 논문 리뷰] WURSTCHEN: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALE TEXT-TO-IMAGE DIFFUSION MODELS 1. 논문이 나온 배경최첨단 확산 모델들은 이미지 합성 분야에서 놀라운 성과를 달성하며 사실적인 이미지 생성에 근접했습니다. 하지만 이러한 기반 모델들은 매우 높은 계산 비용을 요구한다는 심각한 단점을 가지고 있었습니다. 예를 들어, Stable Diffusion 1.4는 학습에 150,000 GPU 시간을, SD 2.1은 200,000 GPU 시간을 사용했습니다. 더 경제적인 text-to-image 모델들도 존재했지만, 이들은 낮은 해상도와 전반적인 미적 특성 측면에서 이미지 품질이 떨어진다는 문제가 있었습니다. 이러한 불일치의 핵심 딜레마는 해상도를 높이면 시각적 복잡성과 계산 비용도 함께 증가하여 이미지 합성이 더 비싸지고 데이터 집약적으로 변한다는 점이었습니다. Encoder 기반 Latent .. 2025. 12. 9.
[AI 논문 리뷰] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 1. 논문이 나온 배경Stable Diffusion은 텍스트-이미지 생성 분야에서 foundational model로 자리잡으며 3D 분류, 제어 가능한 이미지 편집, 이미지 개인화, 합성 데이터 증강 등 다양한 응용 분야에 활용되어 왔습니다. 심지어 음악 생성이나 fMRI 뇌 스캔으로부터 이미지 재구성 같은 분야까지 확장될 정도로 그 영향력이 광범위했습니다. 그러나 기존 Stable Diffusion 모델들(1.5, 2.1 버전)은 몇 가지 한계점들을 가지고 있었습니다.첫째, 생성된 이미지의 디테일이나 사실성 측면에서 개선의 여지가 있었습니다.둘째, 텍스트 프롬프트에 대한 이해도와 충실도가 완벽하지 않았습니다.셋째, 객체가 잘리는 현상(cropping artifacts)이나 구도상의 문제들이 발생하곤 .. 2025. 12. 9.
[AI 논문 리뷰] YOLOE: Real-Time Seeing Anything 1. 논문이 나온 배경객체 탐지(Object Detection)와 분할(Segmentation)은 컴퓨터 비전의 핵심 과제로서 자율주행, 의료 분석, 로봇공학 등 다양한 분야에서 활용되고 있습니다. 전통적인 YOLO 시리즈와 같은 모델들은 실시간으로 뛰어난 성능을 보여왔지만, 사전에 정의된 카테고리에만 의존한다는 근본적인 한계를 가지고 있었습니다. 이러한 closed-set 패러다임은 실제 개방형 시나리오에서의 유연성을 크게 제약했습니다. 최근에는 이러한 한계를 극복하기 위해 텍스트 프롬프트, 시각적 단서, 또는 프롬프트 없는 방식 등 다양한 프롬프트 메커니즘을 활용하는 open-set 방법들이 등장했습니다. 예를 들어 GLIP는 텍스트 프롬프트를 통해 임의의 카테고리를 인식할 수 있게 했고, T-Rex.. 2025. 12. 9.
[AI 논문 리뷰] Grounded Language-Image Pre-training 1. 논문이 나온 배경기존의 시각 인식 모델들은 미리 정해진 고정된 범주(category)의 객체만을 탐지하도록 훈련되었습니다. 이러한 접근 방식은 실제 응용에서 큰 제약이 있었는데, 새로운 시각적 개념이나 도메인으로 일반화하기 위해서는 추가적인 레이블 데이터가 필요했기 때문입니다. 당시 CLIP과 같은 모델이 이미지-텍스트 쌍 데이터를 활용하여 이미지 수준의 표현을 효과적으로 학습할 수 있음을 보여주었지만, 이는 이미지 전체에 대한 분류나 검색 작업에 초점을 맞추고 있었습니다. 그러나 객체 탐지(object detection), 분할(segmentation), 자세 추정(pose estimation) 등 많은 컴퓨터 비전 작업들은 이미지에 대한 세밀한(fine-grained) 이해를 필요로 합니다. 이.. 2025. 12. 9.