본문 바로가기

Paper Review13

[논문 리뷰] The Prompt Report: A Systematic Survey of Prompt EngineeringTechniques The Prompt Report: A Systematic Survey of Prompt EngineeringTechniques는 프롬프트 엔지니어링 분야를 가장 체계적으로 정리한 서베이 논문 가운데 하나입니다. 이 논문은 단순히 “프롬프트를 잘 쓰는 요령”을 모아둔 것이 아니라, 프롬프트를 구성하는 핵심 개념과 용어를 정리하고, 텍스트·멀티모달을 아우르는 프롬프팅 기법 90여 가지 이상을 분류(taxonomy)하며, Few-shot, Chain-of-Thought, 앙상블, 자기 비판, 답변 엔지니어링 등 최신 LLM 프롬프트 기법들을 체계적으로 비교·정리 합니다. 프롬프트 엔지니어링을 “감으로 하는 스킬”이 아니라 연구 기반의 체계적인 기술 스택으로 이해하고 싶은 사람에게 좋은 출발점이 되는 논문으로 .. 2026. 1. 28.

[AI 논문 리뷰] RF-DETR: Neural Architecture Search for Real-Time Object Detection 1. 논문이 나온 배경RF-DETR 논문은 현재 객체 탐지 분야가 직면한 몇 가지 중요한 문제점들을 해결하기 위해 등장했습니다. 먼저 GroundingDINO나 YOLO-World같은 open-vocabulary detector들은 COCO 데이터셋에서는 인상적인 성능을 보이지만, 사전 학습에서 흔히 볼 수 없는 분포 외(out-of-distribution) 클래스가 포함된 실제 데이터셋으로 일반화하는 데 실패하는 경향이 있습니다. 이러한 비전-언어 모델(VLM)들을 새로운 도메인에 파인튜닝하면 도메인 내 성능은 크게 향상되지만, 무거운 텍스트 인코더로 인해 런타임 효율성이 떨어지고 오픈 보캐뷸러리 일반화 능력을 잃게 됩니다. 반면 D-FINE이나 RT-DETR 같은 전문화된(specialist) 객체 .. 2025. 12. 22.

[AI 논문 리뷰] An End-to-End Approach for Korean WakewordSystems with Speaker Authentication 1. 논문이 나온 배경음성 기반 AI 어시스턴트 기술의 발전과 함께 웨이크워드 감지는 사용자가 특정 키워드를 말했을 때만 AI가 음성을 듣고 반응하도록 하는 핵심 기능으로 자리잡았습니다. 하지만 현재 대부분의 공개된 웨이크워드 감지 모델들은 영어에만 집중되어 있으며, 한국어를 비롯한 비영어권 언어에 대한 사전 학습된 모델이 현저히 부족한 상황입니다. 이러한 언어적 불균형은 비영어권 사용자들의 접근성을 제한할 뿐만 아니라, 음성 기반 AI의 글로벌 활용을 저해하는 주요 요인이 되고 있습니다. 더욱이 웨이크워드 기반 시스템은 항상 음성을 청취하는 특성상 심각한 프라이버시 문제를 야기합니다. 웨이크워드의 존재 여부만을 판단하는 시스템의 경우, 해당 웨이크워드를 알고 있는 누구나, 심지어 우연히 발화한 사람조차.. 2025. 12. 18.

[AI 논문 리뷰] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers 1. 논문이 나온 배경GPT-3나 OPT와 같은 대규모 생성형 트랜스포머 모델들은 복잡한 언어 모델링 작업에서 획기적인 성능을 보여주었지만, 동시에 극도로 높은 계산 비용과 저장 공간을 요구한다는 문제가 있었습니다. 특히 GPT-3-175B와 같은 최고 성능 모델의 경우 약 1,750억 개의 파라미터를 가지고 있으며, 이를 float16 형식으로 저장하면 326GB의 메모리가 필요합니다. 이는 최고급 단일 GPU의 용량을 초과하는 수준이기 때문에, 추론(inference)을 수행하기 위해서도 여러 개의 GPU를 사용하는 복잡하고 비용이 많이 드는 설정이 필요했습니다. 모델 압축 기술이 이러한 문제를 해결할 수 있는 표준적인 접근법이었지만, 수십억 개의 파라미터를 가진 모델에 적용하기에는 여러 한계가 있었.. 2025. 12. 10.

[AI 논문 리뷰] Demystifying Flux Architecture 1. 논문이 나온 배경FLUX.1은 Black Forest Labs에서 개발한 최첨단 text-to-image 생성 모델로, Midjourney, DALL·E 3, Stable Diffusion 3, SDXL과 같은 기존 모델들을 뛰어넘는 성능을 보여주고 있습니다. 이 모델은 오픈소스로 공개되어 있음에도 불구하고, 개발사에서 공식적인 기술 문서나 아키텍처에 대한 상세한 설명을 제공하지 않았습니다. 이러한 상황에서 연구자들과 개발자들이 FLUX를 백본 모델로 활용하여 후속 연구 및 개발을 진행하는 데 어려움을 겪고 있었습니다. FLUX.1 이전에는 diffusion 기반 이미지 생성 모델들이 주로 U-Net 아키텍처를 사용했으며, CLIP과 같은 단일 텍스트 인코더에 의존했습니다. 또한 대부분의 모델들이 .. 2025. 12. 9.

[AI 논문 리뷰] WURSTCHEN: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALE TEXT-TO-IMAGE DIFFUSION MODELS 1. 논문이 나온 배경최첨단 확산 모델들은 이미지 합성 분야에서 놀라운 성과를 달성하며 사실적인 이미지 생성에 근접했습니다. 하지만 이러한 기반 모델들은 매우 높은 계산 비용을 요구한다는 심각한 단점을 가지고 있었습니다. 예를 들어, Stable Diffusion 1.4는 학습에 150,000 GPU 시간을, SD 2.1은 200,000 GPU 시간을 사용했습니다. 더 경제적인 text-to-image 모델들도 존재했지만, 이들은 낮은 해상도와 전반적인 미적 특성 측면에서 이미지 품질이 떨어진다는 문제가 있었습니다. 이러한 불일치의 핵심 딜레마는 해상도를 높이면 시각적 복잡성과 계산 비용도 함께 증가하여 이미지 합성이 더 비싸지고 데이터 집약적으로 변한다는 점이었습니다. Encoder 기반 Latent .. 2025. 12. 9.

이전 1 2 3 다음

티스토리툴바