본문 바로가기
Paper Review/Paper Review with AI

[AI 논문 리뷰] RF-DETR: Neural Architecture Search for Real-Time Object Detection

by Sangwoo Seo 2025. 12. 22.

1. 논문이 나온 배경

RF-DETR 논문은 현재 객체 탐지 분야가 직면한 몇 가지 중요한 문제점들을 해결하기 위해 등장했습니다.

 

먼저 GroundingDINO나 YOLO-World같은 open-vocabulary detector들은 COCO 데이터셋에서는 인상적인 성능을 보이지만, 사전 학습에서 흔히 볼 수 없는 분포 외(out-of-distribution) 클래스가 포함된 실제 데이터셋으로 일반화하는 데 실패하는 경향이 있습니다. 이러한 비전-언어 모델(VLM)들을 새로운 도메인에 파인튜닝하면 도메인 내 성능은 크게 향상되지만, 무거운 텍스트 인코더로 인해 런타임 효율성이 떨어지고 오픈 보캐뷸러리 일반화 능력을 잃게 됩니다.

 

반면 D-FINE이나 RT-DETR 같은 전문화된(specialist) 객체 탐지기들은 실시간 추론이 가능하지만, 파인튜닝된 VLM들에 비해 성능이 떨어집니다. 더욱이 최근의 전문화된 탐지기들은 맞춤형 모델 아키텍처, 학습률 스케줄러, 데이터 증강 스케줄러를 사용하여 암묵적으로 COCO에 과적합되어 있어, COCO와 데이터 분포가 크게 다른 실제 데이터셋(예: 이미지당 객체 수, 클래스 수, 데이터셋 크기)에 대한 일반화 성능이 저하됩니다.

 

또한 신경망 구조 탐색(NAS)은 이전에 이미지 분류나 백본, FPN 같은 모델 하위 컴포넌트에 대해서만 연구되었으며, 엔드투엔드 객체 탐지 및 세그멘테이션을 위한 가중치 공유 NAS는 아직 탐구되지 않았습니다. 마지막으로, 레이턴시 벤치마킹 프로토콜의 일관성 부족으로 인해 서로 다른 논문 간의 공정한 비교가 어려운 상황입니다.

2. 어떤 것을 개선할 것인지

RF-DETR은 크게 세 가지 측면에서 개선을 목표로 합니다.

 

첫째, 인터넷 규모의 사전 학습과 실시간 아키텍처를 결합하여 최첨단 성능과 빠른 추론을 동시에 달성하는 현대화된 전문 탐지기를 만들고자 합니다. 특히 COCO에 과최적화되지 않고 다양한 실제 데이터셋으로 잘 일반화될 수 있는 스케줄러 프리(scheduler-free) 접근법을 제시합니다.

 

둘째, 엔드투엔드 객체 탐지 및 세그멘테이션을 위한 가중치 공유 NAS를 도입하여, 하나의 학습 실행만으로 다양한 정확도-레이턴시 트레이드오프를 가진 수천 개의 네트워크 구성을 평가할 수 있게 합니다. 이를 통해 목표 데이터셋과 하드웨어 플랫폼에 특화된 모델을 추가 파인튜닝 없이 발견할 수 있습니다.

 

셋째, GPU 전력 제한(power throttling)으로 인한 레이턴시 측정의 높은 분산을 해결하고, 재현 가능한 표준화된 레이턴시 벤치마킹 프로토콜을 제안합니다.

3. 어떤 원리로 개선된 것인지

RF-DETR의 핵심 개선 원리는 여러 기술적 혁신을 통합한 것입니다.

RF-DETR 구조

인터넷 규모 사전 학습의 통합

RF-DETR은 LW-DETR의 CAEv2 백본을 DINOv2로 교체하여 아키텍처를 단순화하고 학습 절차를 개선했습니다. DINOv2의 사전 학습된 가중치로 백본을 초기화하면 특히 작은 데이터셋에서 탐지 정확도가 크게 향상됩니다. DINOv2 백본은 CAEv2보다 레이어가 많고 느리지만, NAS를 통해 이러한 레이턴시를 보완합니다. 또한 소비자급 GPU에서의 학습을 용이하게 하기 위해 다중 스케일 프로젝터에서 배치 정규화 대신 레이어 정규화를 사용합니다.

실시간 인스턴스 세그멘테이션

MaskDINO에서 영감을 받아 경량 인스턴스 세그멘테이션 헤드를 추가하여 고품질 세그멘테이션 마스크를 공동으로 예측합니다. 세그멘테이션 헤드는 인코더 출력을 이중선형 보간하고 경량 프로젝터를 학습하여 픽셀 임베딩 맵을 생성합니다. 레이턴시를 최소화하기 위해 멀티스케일 백본 특징을 통합하지 않으며, 모든 디코더 레이어의 출력에서 투영된 쿼리 토큰 임베딩과 픽셀 임베딩 맵의 내적을 계산하여 세그멘테이션 마스크를 생성합니다.

엔드투엔드 신경망 구조 탐색

RF-DETR의 가장 혁신적인 부분은 가중치 공유 NAS입니다. OFA에서 영감을 받아 학습 중에 이미지 해상도와 패치 크기 같은 모델 입력과 아키텍처 구성요소를 변화시킬 수 있습니다. 매 학습 반복마다 랜덤한 모델 구성을 균일하게 샘플링하고 그래디언트 업데이트를 수행하는데, 이는 드롭아웃을 사용한 앙상블 학습과 유사하게 수천 개의 서브넷을 효율적으로 병렬 학습할 수 있게 합니다.

NAS 탐색 공간은 다음 다섯 가지 "조정 가능한 손잡이"로 구성됩니다:

  1. 패치 크기: 작은 패치는 더 높은 정확도를 제공하지만 계산 비용이 큽니다. FlexiViT 스타일의 변환을 채택하여 학습 중 패치 크기 간 보간을 수행합니다.
  2. 디코더 레이어 수: 최신 DETR들처럼 학습 중 모든 디코더 레이어 출력에 회귀 손실을 적용하므로, 추론 시 디코더 블록을 드롭할 수 있습니다. 디코더 전체를 제거하면 RF-DETR이 단일 스테이지 탐지기로 변환됩니다.
  3. 쿼리 토큰 수: 쿼리 토큰은 바운딩 박스 회귀와 세그멘테이션을 위한 공간적 사전 정보를 학습합니다. 테스트 시 인코더 출력에서 해당 클래스 로짓의 최대 시그모이드 값에 따라 정렬된 낮은 신뢰도 쿼리를 드롭하여 최대 탐지 수를 조정하고 추론 레이턴시를 줄입니다.
  4. 이미지 해상도: 높은 해상도는 작은 객체 탐지 성능을 향상시키고, 낮은 해상도는 런타임을 개선합니다. 가장 큰 이미지 해상도를 가장 작은 패치 크기로 나눈 값에 해당하는 N개의 위치 임베딩을 미리 할당하고, 더 작은 해상도나 더 큰 패치 크기에 대해 이러한 임베딩을 보간합니다.
  5. 윈도우 어텐션 블록당 윈도우 수: 윈도우 어텐션은 셀프 어텐션을 고정된 수의 인접 토큰만 처리하도록 제한합니다. 블록당 윈도우를 추가하거나 제거하여 정확도, 전역 정보 혼합, 계산 효율성의 균형을 맞춥니다.

스케줄러 프리 접근법

DINOv3와 동시에, RF-DETR은 코사인 스케줄이 고정된 최적화 기간을 가정한다는 점을 관찰하여 이것이 RF100-VL 같은 다양한 목표 데이터셋에 비실용적이라고 판단했습니다. 마찬가지로 데이터 증강도 데이터셋 속성에 대한 사전 지식을 전제로 하여 유사한 편향을 도입합니다. 예를 들어 VerticalFlip은 자율주행 차량의 사람 탐지기에서 물웅덩이 반사로 인한 오탐을 피하기 위해 사용하지 않아야 합니다.

따라서 RF-DETR은 수평 플립과 랜덤 크롭으로만 증강을 제한합니다. 또한 배치 수준에서 이미지 크기를 조정하여 배치당 패딩된 픽셀 수를 최소화하고 학습 시 모든 위치 인코딩 해상도가 동등하게 보이도록 합니다.

4. 실험 결과 및 성능

4-1. 데이터셋 구조

RF-DETR은 주로 두 가지 벤치마크에서 평가됩니다:

 

COCO (Common Objects in Context): 객체 탐지 및 인스턴스 세그멘테이션의 대표적인 벤치마크입니다. 80개의 객체 카테고리를 포함하며, 선행 연구와의 공정한 비교를 위해 사용됩니다

.

Roboflow100-VL (RF100-VL): 100개의 서로 다른 데이터셋으로 구성된 다양성 높은 탐지 벤치마크입니다. 각 데이터셋은 COCO와 크게 다른 데이터 분포(이미지당 객체 수, 클래스 수, 데이터셋 크기)를 가지고 있어, 전반적인 성능이 모든 목표 도메인에 대한 전이 가능성의 대리 지표가 됩니다. RF100-VL은 공개 검증 및 테스트 분할을 가진 데이터셋이므로, 향후 탐지기들도 이 벤치마크에서 평가할 것을 권장합니다.

 

추가로, 세그멘테이션 사전 학습을 위해 Objects-365 데이터셋을 SAM2로 의사 레이블링하여 사용했습니다.

4-2. 성능 평가지표

주요 평가 지표는 pycocotools를 사용한 표준 메트릭들입니다:

  • mAP (mean Average Precision): 주요 성능 지표
  • AP50, AP75: IoU 임계값 0.5와 0.75에서의 AP
  • APSmall, APMedium, APLarge: 작은, 중간, 큰 객체에 대한 AP

효율성 평가를 위해서는:

  • GFLOPs: 연산량
  • 파라미터 수: 모델 크기
  • 추론 레이턴시: NVIDIA T4 GPU, TensorRT 10.4, CUDA 12.4 환경에서 측정

특히 레이턴시 측정에서 재현성을 높이기 위해 순전파 간 200ms 버퍼링을 도입하여 전력 제한과 GPU 과열을 완화했습니다.

실험 결과

COCO 객체 탐지 성능:

  • RF-DETR (nano)는 48.0 AP를 달성하여 D-FINE (nano)를 5.3 AP, LW-DETR (nano)를 5% 이상 능가합니다
  • RF-DETR (2x-large)는 60.1 AP를 기록하여 COCO에서 실시간으로 60 AP를 넘는 최초의 탐지기가 되었습니다
  • RF-DETR (nano)는 YOLOv8 및 YOLOv11의 미디엄 크기 모델과 유사한 성능을 달성합니다
  • 유사한 레이턴시에서 RF-DETR은 모든 크기에서 YOLO 모델들을 크게 능가합니다

COCO 인스턴스 세그멘테이션 성능:

  • RF-DETR-Seg (nano)는 40.3 AP로 모든 YOLOv8 및 YOLOv11 크기를 능가합니다
  • RF-DETR-Seg (nano)는 FastInst를 5.4% 능가하면서 거의 10배 빠르게 실행됩니다
  • RF-DETR-Seg (medium)는 MaskDINO (R50)의 성능에 근접하면서 런타임은 훨씬 짧습니다

RF100-VL 성능:

  • RF-DETR (2x-large)는 63.3 AP를 달성하여 GroundingDINO (tiny)를 1.2 AP 능가하면서 20배 빠르게 실행됩니다
  • 흥미롭게도 RT-DETR이 mAP50에서 D-FINE을 능가하는데, 이는 D-FINE의 하이퍼파라미터가 COCO에 과최적화되었을 가능성을 시사합니다
  • YOLOv8과 YOLOv11은 DETR 기반 탐지기들보다 일관되게 낮은 성능을 보이며, 더 큰 크기로 스케일링해도 RF100-VL 성능이 개선되지 않습니다

NAS의 영향:

  • LW-DETR 대비 부드러운 하이퍼파라미터 사용은 성능을 1% 감소시킵니다
  • CAEv2 백본을 DINOv2로 교체하면 성능이 2% 향상됩니다
  • 가중치 공유 NAS를 통한 최종 모델은 LW-DETR 대비 2% 개선되며 레이턴시 증가는 없습니다

백본 아키텍처의 영향:

  • DINOv2가 최고 성능을 달성하여 CAEv2를 2% 능가합니다
  • SAM2의 Hiera-S 백본은 SigLIPv2보다 파라미터가 적지만 상당히 느립니다
  • 이는 Flash Attention 같은 커널이 TensorRT에서 고도로 최적화되어 있어 Hiera의 속도 주장이 이러한 컨텍스트에서는 유지되지 않음을 보여줍니다

5. 향후 실험 방향성 및 해결하지 못한 과제

논문에서 명시적으로 언급된 한계점과 향후 연구 방향은 다음과 같습니다:

 

  1. 레이턴시 측정의 불확실성: 전력 제한과 GPU 과열을 제어하더라도 TensorRT 컴파일 중 비결정적 동작으로 인해 레이턴시 측정에 최대 0.1ms의 분산이 여전히 존재합니다. TensorRT가 컴파일 중 전력 제한을 도입할 수 있어 결과 엔진에 영향을 미치고 레이턴시에 무작위 변동을 일으킵니다. 따라서 소수점 첫째 자리까지만 레이턴시를 보고합니다.
  2. COCO에서의 파인튜닝 효과 제한: NAS 후 파인튜닝이 COCO에서는 제한적인 이점만 제공하는데, 이는 NAS "아키텍처 증강"이 강력한 정규화로 작용하고 이 정규화 없이 추가 학습하면 성능이 저하되기 때문입니다. RF100-VL에서 학습된 모델은 파인튜닝에서 더 많은 이점을 얻는데, 100 에폭으로는 수렴하기에 부족하기 때문입니다.
  3. 탐색 공간의 확장 가능성: 모든 "조정 가능한 손잡이"가 Pareto-최적 모델 패밀리를 정의하는 데 사용되어 탐색 공간 선택을 검증했지만, 탐색 공간을 확장하면 다운스트림 성능이 추가로 향상될 수 있습니다.
  4. 경량 ViT 변형의 부족: 기존 파운데이션 모델 패밀리들은 일반적으로 ViT-S나 ViT-T 같은 경량 ViT 변형을 릴리스하지 않아 이러한 모델을 실시간 애플리케이션에 재사용하기 어렵습니다.
  5. 검증 세트 과적합 문제: D-FINE처럼 COCO 검증 세트에서 광범위한 하이퍼파라미터 스윕을 수행하고 최고 모델을 보고하는 것은 과적합으로 이어질 수 있습니다. RF100-VL에서 평가했을 때 D-FINE이 RT-DETR보다 낮은 성능을 보인 것이 이를 시사합니다. 향후 탐지기들은 공개 검증 및 테스트 분할이 있는 데이터셋에서 평가해야 합니다.
  6. 더 긴 학습의 필요성: 작은 데이터셋에서 "아키텍처 증강" 정규화는 100 에폭 이상의 학습이 필요할 수 있습니다. 학습 중 NAS 구성 수를 줄이거나 가중치 공유 NAS로 100 에폭 이상 학습하면 성능이 향상될 수 있습니다.

이러한 방향들은 RF-DETR을 더욱 발전시키고 실시간 객체 탐지 및 세그멘테이션의 정확도-효율성 트레이드오프를 지속적으로 개선할 수 있는 기회를 제공합니다.