본문 바로가기
Paper Review/Paper Review with AI

[AI 논문 리뷰] Grounded Language-Image Pre-training

by Sangwoo Seo 2025. 12. 9.

1. 논문이 나온 배경

기존의 시각 인식 모델들은 미리 정해진 고정된 범주(category)의 객체만을 탐지하도록 훈련되었습니다. 이러한 접근 방식은 실제 응용에서 큰 제약이 있었는데, 새로운 시각적 개념이나 도메인으로 일반화하기 위해서는 추가적인 레이블 데이터가 필요했기 때문입니다. 당시 CLIP과 같은 모델이 이미지-텍스트 쌍 데이터를 활용하여 이미지 수준의 표현을 효과적으로 학습할 수 있음을 보여주었지만, 이는 이미지 전체에 대한 분류나 검색 작업에 초점을 맞추고 있었습니다.

 

그러나 객체 탐지(object detection), 분할(segmentation), 자세 추정(pose estimation) 등 많은 컴퓨터 비전 작업들은 이미지에 대한 세밀한(fine-grained) 이해를 필요로 합니다. 이를 위해서는 객체 수준(object-level)의 시각적 표현이 필수적이었습니다. 기존 탐지 데이터셋들은 COCO의 80개 범주, Objects365의 365개 범주 등 최대 2,000개 이하의 제한된 범주만을 포함하고 있었고, 이러한 인간 주석 데이터는 확장하기에 매우 비용이 많이 들었습니다.

2. 어떤 것을 개선할 것인지

GLIP는 크게 세 가지 측면에서 기존 접근 방식을 개선하고자 했습니다.

 

첫째, 객체 탐지 모델이 미리 정의된 범주에만 국한되지 않고, 언어를 통해 표현 가능한 다양한 시각적 개념을 인식할 수 있도록 만들고자 했습니다. 이를 통해 제로샷(zero-shot) 또는 퓨샷(few-shot) 상황에서도 새로운 객체를 탐지할 수 있는 능력을 부여하고자 했습니다.

 

둘째, 기존의 객체 탐지와 구문 그라운딩(phrase grounding)이라는 두 개의 별도 작업을 통합된 관점에서 바라보고, 이 두 작업의 시너지를 활용하여 양쪽 모두의 성능을 향상시키고자 했습니다. 특히 그라운딩 데이터는 탐지 데이터보다 훨씬 풍부한 의미(semantic-rich)를 담고 있다는 점에 주목했습니다.

 

셋째, 대규모 이미지-텍스트 쌍 데이터를 활용하여 모델을 확장하고자 했습니다. 기존의 자가 학습(self-training) 방식은 교사 모델이 예측할 수 있는 범주에 제한되었지만, GLIP는 그라운딩 방식을 통해 웹에서 수집한 대규모 데이터에서 훨씬 다양한 개념을 학습할 수 있도록 했습니다.

3. 어떤 원리로 개선된 것인지

 

GLIP의 핵심 혁신은 객체 탐지를 구문 그라운딩 문제로 재정의한 것입니다. 전통적인 객체 탐지 모델은 각 영역(region)을 미리 정의된 c개의 클래스 중 하나로 분류했습니다. 분류 점수는 영역 특징 O와 분류기 가중치 행렬 W의 곱으로 계산되었습니다($ S_{cls} = OW^T $).

 

GLIP는 이를 그라운딩 문제로 변환하여, 각 영역을 텍스트 프롬프트의 구문들과 정렬(align)시킵니다. 예를 들어, COCO 데이터셋의 경우 "person. bicycle. car. ... toothbrush."와 같은 프롬프트를 사용합니다. 이미지 인코더 $ Enc_I $로 영역 특징 $ O $를 추출하고, 언어 인코더 $ Enc_L $로 프롬프트의 단어 특징 $ P $를 추출한 후, 정렬 점수를 $ S_{ground} = OP^T $로 계산합니다. 이는 분류기 가중치 $ W $를 언어 인코더가 생성한 단어 특징 $ P $로 대체한 것과 같습니다.

 

더 나아가 GLIP는 언어-인식 심층 융합(language-aware deep fusion)을 도입했습니다. 이미지와 텍스트 인코더를 마지막 단계에서만 융합하는 후기 융합(late fusion) 방식 대신, 인코딩의 마지막 몇 개 레이어에서 교차 양식 다중 헤드 어텐션(X-MHA)을 통해 정보를 교환합니다. 구체적으로 $ O^i_{t2i} $와 $ P^i_{i2t} $라는 컨텍스트 벡터를 계산하여 각 양식에 더해줍니다. 이를 통해 시각적 특징이 언어를 인식하게 되고, 모델의 예측이 텍스트 프롬프트에 조건화됩니다.

 

사전 학습 데이터 확장 측면에서는 자가 학습 방식을 활용했습니다. 먼저 인간 주석 데이터로 교사 GLIP 모델을 학습시킨 후, 웹에서 수집한 이미지-텍스트 쌍에서 NLP 파서로 추출한 명사구에 대해 교사 모델이 바운딩 박스를 생성합니다. 학생 모델은 이렇게 생성된 의사 레이블(pseudo label)과 원래의 골드 데이터를 함께 사용하여 학습됩니다. 예를 들어, 교사 모델은 "vaccine"이나 "beautiful caribbean sea turquoise" 같은 개념을 직접 학습하지 않았더라도 언어적 맥락을 활용하여 정확하게 위치를 찾을 수 있으며, 이것이 학생 모델의 학습 신호가 됩니다.

4. 실험 결과 및 성능

4-1. 데이터셋과 구조

논문에서는 여러 데이터셋을 사용하여 실험을 진행했습니다.

사전 학습 데이터:

  • Objects365: 66만 개의 이미지와 365개 범주를 포함하는 탐지 데이터셋입니다
  • GoldG (Gold Grounding): MDETR에서 큐레이션한 80만 개의 인간 주석 그라운딩 데이터로, Flickr30K, Visual Genome Caption, GQA를 포함합니다. Flickr30K는 44,518개의 고유 구문을, VG Caption은 110,689개의 고유 구문을 포함하여 탐지 데이터보다 훨씬 풍부한 어휘를 제공합니다
  • Cap4M/Cap24M: 웹에서 수집한 400만/2400만 개의 이미지-텍스트 쌍으로, 교사 모델이 생성한 의사 바운딩 박스를 포함합니다
  • FourODs: Objects365, OpenImages, Visual Genome, ImageNetBoxes를 합친 266만 개의 탐지 데이터입니다

평가 데이터셋:

  • COCO (MS-COCO): 80개의 일반적인 객체 범주를 포함하며, 2017val과 test-dev 세트에서 평가되었습니다
  • LVIS: 1,000개 이상의 객체 범주를 포함하며, 희귀(rare), 일반(common), 빈번(frequent) 범주로 나뉩니다. MiniVal(5,000개 이미지)과 전체 val v1.0에서 평가되었습니다
  • Flickr30K Entities: 구문 그라운딩 작업을 위한 데이터셋입니다
  • ODinW (Object Detection in the Wild): 13개의 다양한 실제 탐지 데이터셋으로, EgoHands(손 탐지), Pothole(도로 구멍 탐지), ThermalDogsandPeople(열화상 이미지에서 개와 사람 탐지) 등 특정 응용을 위한 데이터셋들을 포함합니다

4-2. 성능 평가지표

논문에서 사용한 주요 평가 지표는 다음과 같습니다:

  • AP (Average Precision): COCO 스타일의 평균 정밀도로, IoU 임계값 0.5부터 0.95까지 0.05 간격으로 계산한 평균입니다
  • AP50: IoU 임계값 0.5에서의 평균 정밀도입니다
  • APr, APc, APf: LVIS에서 사용하는 지표로, 각각 희귀(rare), 일반(common), 빈번(frequent) 범주에 대한 AP입니다
  • Recall@K: 구문 그라운딩에서 사용하는 지표로, 상위 K개 예측 중 정답이 포함된 비율입니다

COCO에서의 성능: 제로샷 설정에서 GLIP-T는 46.7 AP를 달성하여 Faster RCNN의 지도 학습 성능(40.2-42.0 AP)을 능가했습니다. GLIP-L은 49.8 AP를 달성하여 DyHead-T의 지도 학습 성능(49.7 AP)과 유사한 수준을 보였습니다. 파인튜닝 후에는 GLIP-T가 55.2 AP, GLIP-L이 2017val에서 60.8 AP, test-dev에서 61.5 AP를 달성하여 당시 최고 성능을 기록했습니다.

 

LVIS에서의 성능: 제로샷 설정에서 GLIP-T는 MiniVal에서 24.9 AP, val v1.0에서 16.5 AP를 달성했습니다. 특히 희귀 범주에서 APr 7.5를 기록했습니다. GLIP-L은 MiniVal에서 37.3 AP, val v1.0에서 26.9 AP를 달성하여 지도 학습 기준선인 Supervised-RFS(25.4 AP)를 크게 상회했습니다. 희귀 범주에서는 APr 17.1을 달성하여 그라운딩 데이터의 효과를 명확히 보여주었습니다.

 

Flickr30K에서의 성능: GLIP-T는 GoldG로만 학습했을 때 test R@1에서 84.4를 달성했습니다. Objects365 탐지 데이터를 추가하면 85.5로 향상되었고, Cap4M 이미지-텍스트 데이터를 추가하면 85.7로 더 향상되었습니다. GLIP-L은 87.1 R@1을 달성하여 이전 최고 성능인 MDETR-ENB5(84.3)를 2.8 포인트 상회했습니다.

 

ODinW에서의 데이터 효율성: 제로샷 GLIP-L은 평균 59.9 AP를 달성하여 10-샷 DyHead-T(약 45 AP)를 크게 앞질렀습니다. 1-샷 GLIP-L은 완전 지도 학습된 DyHead-T와 유사한 성능을 보였습니다. 이는 GLIP의 뛰어난 데이터 효율성을 입증합니다.

 

프롬프트 튜닝 효과: 프롬프트 임베딩만 튜닝했을 때, GLIP-T와 GLIP-L은 전체 모델 파인튜닝과 거의 동일한 성능을 달성했습니다. 이는 언어-인식 심층 융합이 없는 GLIP-T(A)나 DyHead-T에서는 관찰되지 않았던 현상으로, 심층 융합의 중요성을 보여줍니다.

5. 향후 연구 방향성 및 해결하지 못한 과제

논문의 결론 부분에서 저자들은 GLIP가 이미지-텍스트 데이터의 규모에 따라 어떻게 확장되는지에 대한 상세한 연구를 향후 과제로 남겨두었습니다.

 

첫째, 더 대규모의 데이터로 확장했을 때의 성능 변화에 대한 체계적인 분석이 필요합니다. 논문에서는 2,700만 개의 그라운딩 데이터를 사용했지만, CLIP이나 ALIGN처럼 수억 개 수준의 데이터로 확장했을 때의 효과는 명확히 밝혀지지 않았습니다.

 

둘째, 프롬프트 설계에 대한 더 깊은 이해가 필요합니다. 논문에서는 "person. bicycle. car..."와 같은 간단한 프롬프트를 주로 사용했지만, 수동 프롬프트 튜닝 실험에서 "stingray, which is flat and round"처럼 속성을 추가하면 성능이 향상됨을 보였습니다. 어떤 프롬프트 디자인이 최적인지, 그리고 이를 자동화할 수 있는 방법에 대한 연구가 필요합니다.

 

셋째, 모델의 일반화 능력에 대한 이론적 이해가 부족합니다. 교사 모델이 학습 데이터에 없는 개념(예: "vaccine", "turquoise")을 언어적 맥락을 통해 정확히 위치 지정할 수 있는 이유에 대해서는 가설을 제시했지만, 이에 대한 엄밀한 분석은 제공하지 못했습니다.

 

넷째, 현재 GLIP는 주로 바운딩 박스 수준의 탐지에 초점을 맞추고 있습니다. 인스턴스 분할(instance segmentation)이나 키포인트 탐지(keypoint detection) 등 다른 세밀한 시각 인식 작업으로의 확장은 명시적으로 다루어지지 않았습니다.

 

다섯째, 배포 효율성 측면에서 프롬프트 튜닝이 효과적임을 보였지만, 수천 개의 다운스트림 작업을 동시에 서빙해야 하는 실제 시나리오에서의 시스템 최적화 방법은 향후 연구가 필요합니다.

 

마지막으로, 모델의 편향성과 공정성 문제가 명시적으로 다루어지지 않았습니다. 웹에서 수집한 대규모 데이터로 학습할 때 발생할 수 있는 사회적 편향을 어떻게 완화할지는 중요한 과제로 남아있습니다.