본문 바로가기

Computer Vision3

[AI 논문 리뷰] Denoising Diffusion Probabilistic Models 1. 논문이 나온 배경2020년 당시 딥러닝 기반 생성 모델 분야는 이미 상당한 발전을 이루고 있었습니다. GAN(Generative Adversarial Networks), VAE(Variational Autoencoders), autoregressive 모델, normalizing flow 등이 고품질의 이미지와 오디오 샘플을 생성하는 데 성공했으며, 특히 GAN은 놀라운 시각적 품질을 보여주고 있었습니다. 또한 energy-based 모델링과 score matching 기법도 GAN에 필적할 만한 이미지를 생성할 수 있음을 입증하고 있었습니다. 그러나 diffusion probabilistic models는 이론적으로는 이미 제안되어 있었지만, 실제로 고품질 샘플을 생성할 수 있다는 실증적 증거가 .. 2025. 12. 2.

[AI 논문 리뷰] Segment Anything 1. 논문이 나온 배경자연어 처리 분야에서는 GPT와 같은 대규모 언어 모델들이 웹에서 수집한 방대한 텍스트 데이터로 사전학습된 후, 프롬프트 엔지니어링을 통해 다양한 downstream 태스크를 zero-shot 또는 few-shot 방식으로 해결하는 foundation model 패러다임이 확립되었습니다. CLIP과 ALIGN 같은 모델들은 이미지와 텍스트를 연결하는 vision-language 분야에서도 성공을 거두었습니다. 하지만 순수한 컴퓨터 비전, 특히 이미지 세그멘테이션 분야에는 이러한 범용 foundation model이 존재하지 않았습니다. 세그멘테이션 분야가 foundation model을 갖지 못한 가장 큰 이유는 데이터 부족 문제였습니다. 텍스트 데이터는 웹에 자연스럽게 풍부하게 존.. 2025. 12. 2.

Computer Vision Major Task List - (2): Object Detection 지난 글 : Computer Vision Major Task List - (1): Image Classification | https://sawoo9410.tistory.com/23 2. Object Detection 지난 글에 이어 컴퓨터 비전 분야의 주요 task 중 하나인 'Object Detection'에 대해 소개하려 합니다. 이 task는 분류(classification) 문제와 위치 탐색(localization) 문제를 동시에 해결하려는 아이디어에서 출발하였습니다. 분류(Classification): 이미지나 비디오에서 감지된 각 객체가 어떤 클래스에 속하는지 결정합니다. 예를 들어, 개, 고양이, 사람, 자동차 등을 분류할 수 있습니다. 위치 탐색(Localization): 객체의 정확한 .. 2023. 9. 7.

이전 1 다음

티스토리툴바