[AI 논문 리뷰] YOLOE: Real-Time Seeing Anything

1. 논문이 나온 배경

객체 탐지(Object Detection)와 분할(Segmentation)은 컴퓨터 비전의 핵심 과제로서 자율주행, 의료 분석, 로봇공학 등 다양한 분야에서 활용되고 있습니다. 전통적인 YOLO 시리즈와 같은 모델들은 실시간으로 뛰어난 성능을 보여왔지만, 사전에 정의된 카테고리에만 의존한다는 근본적인 한계를 가지고 있었습니다. 이러한 closed-set 패러다임은 실제 개방형 시나리오에서의 유연성을 크게 제약했습니다.

최근에는 이러한 한계를 극복하기 위해 텍스트 프롬프트, 시각적 단서, 또는 프롬프트 없는 방식 등 다양한 프롬프트 메커니즘을 활용하는 open-set 방법들이 등장했습니다. 예를 들어 GLIP는 텍스트 프롬프트를 통해 임의의 카테고리를 인식할 수 있게 했고, T-Rex2는 시각적 프롬프트를 활용했으며, GenerateU는 언어 모델을 통합하여 프롬프트 없이도 객체를 식별하고 카테고리 이름을 생성할 수 있게 했습니다.

그러나 이러한 접근법들은 각각의 문제점을 안고 있었습니다. 텍스트 기반 방법들은 대규모 어휘를 처리할 때 교차 모달리티 융합의 복잡성으로 인해 상당한 계산 오버헤드가 발생했습니다. 시각적 프롬프트 방법들은 트랜스포머 중심의 설계나 추가 비전 인코더 의존으로 엣지 디바이스에서의 배포 가능성을 저해했습니다. 프롬프트 없는 방식들은 대규모 언어 모델에 의존하여 상당한 메모리와 지연 비용을 초래했습니다. 특히 DINO-X처럼 다양한 프롬프트를 통합한 모델도 있었지만, 리소스 집약적인 학습과 추론 오버헤드가 컸습니다.

2. 그래서 어떤 것을 개선할 것인지?

YOLOE는 단일 고효율 모델 내에서 다양한 개방형 프롬프트 메커니즘을 통합하여 실시간 "모든 것을 보는(seeing anything)" 능력을 달성하고자 합니다. 구체적으로 세 가지 주요 개선 목표를 설정했습니다.

첫째, 텍스트 프롬프트의 경우 추론 및 전이 학습 시 오버헤드 없이 사전 학습된 텍스트 임베딩을 개선하여 시각-의미 정렬을 강화하는 것입니다. 기존 방법들은 복잡한 교차 모달리티 융합으로 인해 계산 비용이 높았는데, 이를 해결하면서도 성능을 향상시키는 것이 목표였습니다.

둘째, 시각적 프롬프트의 경우 최소한의 복잡도로 향상된 시각 임베딩과 정확도를 제공하는 것입니다. 기존의 트랜스포머 기반 설계나 추가 인코더 의존성을 피하면서도 효과적으로 시각적 단서를 처리하고자 했습니다.

셋째, 프롬프트 없는 시나리오에서는 비용이 많이 드는 언어 모델 의존성을 피하면서 모든 객체를 식별하는 것입니다. GenerateU가 250M 파라미터의 FlanT5 모델을 사용한 것과 달리, 내장된 대규모 어휘를 활용하여 효율적으로 카테고리를 검색하는 방식을 목표로 했습니다.

전체적으로는 YOLO-Worldv2 대비 3배 적은 학습 비용으로 더 높은 성능을 달성하고, T4 GPU와 iPhone 12에서 각각 1.4배, 1.3배의 추론 속도 향상을 이루는 것을 목표로 했습니다.

3. 어떤 원리로 개선된 것인지?

YOLOE는 세 가지 핵심 전략을 통해 개선을 달성했습니다.

3.1 Re-parameterizable Region-Text Alignment (RepRTA)

RepRTA는 텍스트 프롬프트 처리를 위한 전략입니다. 핵심 원리는 경량의 보조 네트워크를 통해 사전 학습된 텍스트 임베딩을 개선하되, 추론 시에는 이를 재매개변수화하여 오버헤드를 제거하는 것입니다.

구체적으로 CLIP 텍스트 인코더로 텍스트 프롬프트의 사전 학습 임베딩 P를 얻은 후, 학습 전에 모든 텍스트 임베딩을 미리 캐싱하여 텍스트 인코더를 제거함으로써 추가 학습 비용을 없앴습니다. 그리고 하나의 SwiGLU FFN 블록으로 구성된 경량 보조 네트워크 $ f_θ $를 도입하여 향상된 텍스트 임베딩 $ P' = f_θ(P) $를 얻습니다. 이는 앵커 포인트의 객체 임베딩과 대조하여 시각-의미 정렬을 개선합니다.

수학적으로는 $ Label = R(I ⊛ K) · (f_θ(P))^T $로 표현되며, 여기서 $ K $는 객체 임베딩 헤드의 마지막 컨볼루션 레이어 커널입니다. 학습 후에는 $ K' = R(f_θ(P)) ⊛ K^T $로 재매개변수화하여 새로운 커널 파라미터를 생성합니다. 최종 예측은 $ Label = I ⊛ K' $가 되어 원래 YOLO 아키텍처와 동일해지므로, 배포 및 하위 작업 전이 시 오버헤드가 전혀 없습니다.

3.2 Semantic-Activated Visual Prompt Encoder (SAVPE)

SAVPE는 시각적 프롬프트를 효율적으로 처리하기 위한 인코더입니다. 핵심 원리는 두 개의 분리된 경량 브랜치를 사용하는 것입니다.

의미 브랜치(Semantic Branch)는 시각적 단서 융합 오버헤드 없이 D 채널의 프롬프트 불가지론적 의미 특징을 출력합니다. PAN의 다중 스케일 특징 {P3, P4, P5}에서 각 스케일마다 두 개의 3×3 컨볼루션을 적용하고, 업샘플링 후 연결하여 의미 특징 $ S ∈ R^{(D×H×W)} $를 생성합니다.

활성화 브랜치(Activation Branch)는 시각적 단서와 이미지 특징을 훨씬 적은 채널(A << D)에서 상호작용시켜 그룹화된 프롬프트 인식 가중치를 생성합니다. 시각적 프롬프트를 관심 영역은 1, 나머지는 0인 마스크로 정형화하고, 이를 다운샘플링하여 3×3 컨볼루션으로 프롬프트 특징 $ F_V ∈ R^{(A×H×W)} $를 얻습니다. {P3, P4, P5}에서 이미지 특징 $ F_I ∈ R^{(A×H×W)} $를 얻어 $ F_V $와 연결한 후, 프롬프트 인식 가중치 $ W ∈ R^{(A×H×W)} $를 출력합니다. 이는 프롬프트로 지정된 영역 내에서 softmax로 정규화됩니다.

$ S $의 채널을 $ A $개 그룹으로 나누어 각 그룹의 $ D/A $ 채널이 $ W $의 해당 채널 가중치를 공유하도록 합니다. 최종 프롬프트 임베딩은 $ P = Concat(G_1, ..., G_A) $로 집계되며, 여기서 $ G_i = W_{(i:i+1)} · S^T_{(\frac{D}{A}*i : \frac{D}{A}*(i+1))} $입니다. 저차원$ (A << D) $에서 처리하여 최소 비용으로 유익한 프롬프트 임베딩을 생성합니다.

3.3 Lazy Region-Prompt Contrast (LRPC)

LRPC는 프롬프트 없는 시나리오를 위한 전략입니다. 기존 방법들이 생성 문제로 접근하여 언어 모델로 카테고리를 생성한 것과 달리, LRPC는 이를 검색 문제로 재정의했습니다.

핵심 원리는 특수화된 프롬프트 임베딩 $ P_s $를 사용하여 모든 객체를 하나의 카테고리로 찾은 후, 내장된 대규모 어휘(4585개 카테고리 이름)에서 카테고리 이름을 "게으르게(lazily)" 검색하는 것입니다. 먼저 $ O' = {o ∈ O | o · P_s^T > δ} $로 객체에 해당하는 앵커 포인트 집합을 찾습니다. 여기서 $ δ $는 필터링 임계값입니다.

중요한 점은 모든 앵커 포인트를 대규모 어휘와 대조하는 대신, 객체가 있는 앵커 포인트($ O' $)만 어휘와 매칭하여 카테고리 이름을 검색한다는 것입니다. 이렇게 관련 없는 앵커 포인트에 대한 비용을 우회하여 성능 저하 없이 효율성을 크게 향상시켰습니다. 언어 모델에 대한 의존성이 전혀 없으므로 메모리와 지연 비용을 대폭 절감했습니다.

4. 실험 결과 및 성능

4.1 어떤 데이터셋인지? 데이터셋의 구조는?

YOLOE는 학습과 평가에 여러 데이터셋을 활용했습니다.

학습 데이터:

Objects365 (V1): 대규모 객체 탐지 데이터셋으로, COCO의 이미지는 제외되었습니다
GoldG: GQA와 Flickr30k를 포함하는 그라운딩 데이터셋입니다
COCO의 이미지는 공정한 zero-shot 평가를 위해 학습 데이터에서 제외되었습니다
세그멘테이션 데이터: SAM-2.1 모델을 사용하여 탐지 및 그라운딩 데이터셋의 ground truth 바운딩 박스로부터 가짜 인스턴스 마스크를 생성했습니다. 이 마스크들은 노이즈 제거와 단순화 과정을 거쳤습니다
시각적 프롬프트 데이터: ground truth 바운딩 박스를 시각적 단서로 활용했습니다
프롬프트 없는 데이터: 동일한 데이터셋을 재사용하되, 모든 객체를 단일 카테고리로 주석 처리하여 특수화된 프롬프트 임베딩을 학습했습니다

평가 데이터:

LVIS (Large Vocabulary Instance Segmentation): 1,203개 카테고리를 포함하는 대규모 어휘 데이터셋으로, zero-shot 성능 평가의 주요 벤치마크입니다. minival 서브셋(약 5,000개 이미지)과 val 세트가 사용되었습니다
LVIS는 rare(희귀), common(일반), frequent(빈번) 카테고리로 구분되어 다양한 빈도의 객체에 대한 모델 성능을 평가할 수 있습니다
COCO: 하위 작업 전이 평가를 위해 사용되었으며, 80개의 객체 카테고리를 포함합니다

4.2 성능 평가지표는 무엇인지?

YOLOE는 다양한 평가 지표를 사용했습니다.

탐지 성능 지표:

Fixed AP: LVIS minival 세트에서 보고된 주요 지표로, zero-shot 방식으로 평가됩니다
Standard AP: LVIS val 세트와 COCO에서의 표준 Average Precision입니다
AP_r, AP_c, AP_f: 각각 rare(희귀), common(일반), frequent(빈번) 카테고리에 대한 AP로, 다양한 빈도의 객체에 대한 모델 성능을 세밀하게 분석합니다
AP^b_50, AP^b_75: IoU 임계값 0.5와 0.75에서의 탐지 AP입니다

세그멘테이션 성능 지표:

AP^m: 마스크 예측에 대한 Average Precision입니다
AP^m_r, AP^m_c, AP^m_f: 희귀, 일반, 빈번 카테고리에 대한 세그멘테이션 AP입니다
AP^m_50, AP^m_75: IoU 임계값 0.5와 0.75에서의 세그멘테이션 AP입니다

효율성 지표:

FPS (Frames Per Second): Nvidia T4 GPU에서 TensorRT로, iPhone 12에서 CoreML로 측정한 추론 속도입니다
학습 시간: 8개의 Nvidia RTX4090 GPU 기준 시간(단위: 시간)입니다
파라미터 수: 모델의 총 파라미터 개수입니다

실험 결과:

텍스트 및 시각적 프롬프트 평가 (LVIS 탐지):

YOLOE-v8-S는 YOLO-Worldv2-S 대비 3.5 AP 향상(27.9 vs 24.4), 학습 시간은 3배 단축(12시간 vs 41.7시간), T4에서 1.4배 속도 향상(305.8 FPS vs 216.4 FPS), iPhone 12에서 1.3배 속도 향상(64.3 FPS vs 48.9 FPS)을 달성했습니다
YOLOE-v8-L은 35.9 AP를 기록하며 YOLO-Worldv2-L(33.0 AP) 대비 우수한 성능을 보였고, 특히 희귀 카테고리에서 33.2 AP_r로 7.6% 향상을 이루었습니다
시각적 프롬프트의 경우, YOLOE-v8-L은 T-Rex2 대비 AP_r에서 3.3 향상(33.2 vs 29.9), AP_c에서 0.9 향상(34.6 vs 33.9)을 보이면서도 2배 적은 학습 데이터(1.4M vs 3.1M)와 더 적은 컴퓨팅 자원(8 RTX4090 vs 16 A100)으로 달성했습니다

세그멘테이션 평가 (LVIS):

YOLOE-v8-M은 20.8 AP^m으로 파인튜닝된 YOLO-Worldv2-M(17.8 AP^m) 대비 3.0 향상을 보였습니다
YOLOE-v8-L은 23.5 AP^m으로 파인튜닝된 YOLO-Worldv2-L(19.8 AP^m) 대비 3.7 향상을 달성했습니다
이는 YOLOE가 zero-shot 방식임에도 불구하고 LVIS-Base로 파인튜닝된 모델들을 능가했다는 점에서 주목할 만합니다

프롬프트 없는 평가 (LVIS):

YOLOE-v8-L은 27.2 AP를 기록하여 Swin-T 백본의 GenerateU(26.8 AP) 대비 0.4 AP 향상을 보였습니다
특히 희귀 카테고리에서 23.5 AP_r로 GenerateU(20.0 AP_r) 대비 3.5 향상을 달성했습니다
파라미터는 6.3배 적고(47M vs 297M), 추론 속도는 53배 빠릅니다(25.3 FPS vs 0.48 FPS)

하위 작업 전이 (COCO):

Linear probing(10 에폭): YOLOE-11-M/L은 YOLO11-M/L 성능의 80% 이상을 2% 미만의 학습 시간으로 달성했습니다
Full tuning: YOLOE-v8-M은 50.4 AP^b, 40.9 AP^m으로 YOLOv8-M(50.0 AP^b, 40.5 AP^m) 대비 각각 0.4, 0.4 향상을 보였고, 학습 에폭은 거의 4배 적었습니다(80 vs 300)
YOLOE-v8-L은 53.0 AP^b, 42.7 AP^m으로 YOLOv8-L(52.4 AP^b, 42.3 AP^m) 대비 0.6, 0.4 향상을 달성했으며, 역시 학습 에폭이 4배 적었습니다(80 vs 300)

Ablation Study 주요 결과:

RepRTA는 2.3 AP 향상을 가져왔으며(31.5 → 33.5), 추론 오버헤드는 전혀 없었습니다
SAVPE는 단순 마스크 풀링 대비 1.5 AP 향상을 보였습니다(30.4 → 31.9)
LRPC는 동일한 성능으로 YOLOE-v8-S/L에서 각각 1.7배/1.3배 추론 속도 향상을 달성했습니다

5. 향후 연구 방향성 및 해결하지 못한 과제는?

논문에서는 명시적으로 향후 연구 방향을 제시하지는 않았지만, 결과 분석을 통해 몇 가지 과제와 방향성을 유추할 수 있습니다.

해결하지 못한 과제:

첫째, 다중 작업 학습의 트레이드오프 문제가 있습니다. 세그멘테이션 헤드를 추가하여 탐지와 세그멘테이션을 동시에 학습할 때, 빈번한 카테고리(frequent categories)에서 탐지 성능이 다소 저하되는 현상이 관찰되었습니다. 예를 들어 YOLOE-v8-M/L의 경우 YOLO-Worldv2 대비 AP_f가 낮았는데, 이는 다중 작업 학습이 도입한 트레이드오프 때문입니다. 논문에서는 이를 인정하면서도 통합된 탐지 및 세그멘테이션 능력을 얻는 것이 더 큰 가치가 있다고 평가했습니다.

둘째, 학습 데이터의 제약이 있습니다. YOLOE는 제한된 계산 자원으로 인해 YOLO-World의 100 에폭 학습과 달리 30 에폭만 학습했습니다. 충분한 학습을 진행한다면 더 높은 성능을 달성할 가능성이 있으며, 이는 향후 개선의 여지를 남깁니다.

셋째, 프롬프트 없는 시나리오에서의 카테고리 매핑 정확도 문제입니다. LRPC는 내장된 어휘(4585개 카테고리)에서 검색하는 방식인데, 이 어휘가 모든 가능한 객체를 완벽하게 커버하지는 못할 수 있습니다. 또한 사전 학습된 텍스트 인코더를 사용하여 예측을 의미적으로 유사한 카테고리 이름에 매핑하는 과정에서 오류가 발생할 가능성이 있습니다.

향후 연구 방향성:

첫째, 다중 작업 학습 최적화입니다. 탐지와 세그멘테이션 간의 균형을 더욱 개선하여 어느 한쪽의 성능 저하 없이 두 작업 모두에서 최고 성능을 달성하는 학습 전략이 필요합니다. 예를 들어 적응적 가중치 조정이나 작업별 특화 레이어 설계 등이 고려될 수 있습니다.

둘째, 확장된 학습 데이터와 에폭입니다. 더 많은 계산 자원을 활용하여 충분한 에폭 동안 학습하고, 더 다양한 데이터셋을 통합한다면 성능 향상을 기대할 수 있습니다. 특히 희귀 카테고리에 대한 데이터를 보강하여 AP_r을 더욱 개선할 수 있을 것입니다.

셋째, 프롬프트 메커니즘의 통합 최적화입니다. 현재는 텍스트, 시각적, 프롬프트 없는 방식을 각각 별도로 학습하지만, 이들을 동시에 학습하거나 상호 보완적으로 활용하는 멀티모달 학습 전략을 개발할 수 있습니다.

넷째, 더 작은 모델 크기로의 효율성 개선입니다. 엣지 디바이스 배포를 위해 모델 압축, 지식 증류, 신경망 아키텍처 탐색 등을 통해 성능을 유지하면서도 더 경량화된 모델을 개발하는 방향이 있습니다.

다섯째, 내장 어휘의 확장 및 동적 업데이트입니다. LRPC의 4585개 카테고리 어휘를 더 확장하거나, 새로운 카테고리를 동적으로 추가할 수 있는 메커니즘을 개발하여 프롬프트 없는 시나리오의 범용성을 높일 수 있습니다.

여섯째, 실제 응용 시나리오에 대한 검증입니다. 자율주행, 로봇공학, 의료 영상 분석 등 구체적인 실제 응용 분야에서 YOLOE의 성능과 효율성을 검증하고, 각 도메인별 특화된 개선을 수행하는 연구가 필요합니다.

결론적으로 YOLOE는 실시간 성능과 다양한 프롬프트 메커니즘 지원이라는 강점을 가지고 있지만, 다중 작업 학습 최적화, 학습 자원 확대, 프롬프트 통합 전략 고도화 등의 영역에서 추가 연구가 이루어질 수 있을 것입니다. 논문은 YOLOE가 실시간 개방형 프롬프트 기반 비전 작업의 강력한 기준점이 되기를 기대하며, 향후 발전을 위한 영감을 제공하고자 한다고 밝히고 있습니다.

'Paper Review > Paper Review with AI' 카테고리의 다른 글

[AI 논문 리뷰] WURSTCHEN: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALE TEXT-TO-IMAGE DIFFUSION MODELS (1)	2025.12.09
[AI 논문 리뷰] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (1)	2025.12.09
[AI 논문 리뷰] Grounded Language-Image Pre-training (0)	2025.12.09
[AI 논문 리뷰] Denoising Diffusion Probabilistic Models (0)	2025.12.02
[AI 논문 리뷰] Segment Anything (0)	2025.12.02

Mad-NPU Lab by Sangwoo

[AI 논문 리뷰] YOLOE: Real-Time Seeing Anything

1. 논문이 나온 배경

2. 그래서 어떤 것을 개선할 것인지?

3. 어떤 원리로 개선된 것인지?

3.1 Re-parameterizable Region-Text Alignment (RepRTA)