Feature Pyramid Networks (FPN) 완벽 가이드: 객체 탐지 성능을 높이는 핵심 아키텍처 | AI Trends

CodeEmporiumAI/ML

Feature Pyramid Networks (FPN) 완벽 가이드: 객체 탐지 성능을 높이는 핵심 아키텍처

다양한 크기의 객체를 효과적으로 탐지하기 위해 CNN 아키텍처에 스케일 인지 능력을 더해주는 Feature Pyramid Network의 원리와 구현 방법을 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

FPN은 CNN의 계층적 구조를 활용하여 추가적인 연산 부담을 최소화하면서도 다양한 스케일의 특징 맵을 생성하여 객체 탐지 성능을 획기적으로 향상시킨다.

배경

객체 탐지(Object Detection) 분야에서 이미지 내 다양한 크기의 물체를 정확하게 인식하는 것은 모델 성능의 핵심적인 과제였다.

대상 독자

컴퓨터 비전 모델의 성능을 개선하고자 하는 ML 엔지니어 및 연구자

의미 / 영향

FPN은 현대 객체 탐지 모델의 표준 아키텍처로 자리 잡았으며, 이를 통해 자율 주행이나 보안 관제와 같이 작은 물체를 정확히 식별해야 하는 실무 환경의 정확도가 크게 개선되었다. 개발자는 기존 CNN 백본에 최소한의 오버헤드로 FPN 모듈을 추가하여 즉각적인 성능 향상을 기대할 수 있다. 특히 임베디드 환경처럼 연산 자원이 제한된 곳에서도 이미지 피라미드보다 훨씬 효율적인 대안이 된다.

챕터별 상세

00:00

Feature Pyramid Network (FPN)의 정의

FPN은 Convolutional Neural Networks (CNN)에 스케일 인지(Scale Awareness) 능력을 추가하기 위한 아키텍처 개선 기법이다. 연산 및 메모리 오버헤드를 최소화하면서 객체 탐지 및 세그멘테이션 성능을 향상시킨다. 다양한 해상도의 특징 맵(Feature Map) 피라미드를 구축하여 각 층에서 예측을 수행하는 구조를 가진다.

CNN은 층이 깊어질수록 해상도는 낮아지지만 더 추상적이고 강력한 의미 정보를 담게 된다.

00:50

역사적 배경과 FPN의 필요성

초기 객체 탐지는 고정된 크기의 슬라이딩 윈도우를 사용하여 크기 변화에 취약했다. 이를 해결하기 위해 이미지 피라미드를 사용했으나 연산 비용이 매우 높았다. R-CNN 계열 모델들은 ROI Pooling 등을 통해 속도를 개선했지만, 단일 해상도의 특징 맵만 사용하기 때문에 작은 물체를 탐지하는 데 여전히 한계가 있었다.

Scale Invariance는 이미지 내 물체의 크기가 달라져도 동일하게 인식할 수 있는 능력을 의미한다.

09:00

FPN의 연산 구조: Bottom-up 및 Top-down 경로

FPN은 Bottom-up 경로를 통해 특징을 추출하고, Top-down 경로에서 상위 층의 풍부한 의미 정보를 하위 층으로 전달한다. 상위 층의 특징 맵을 Upsampling한 후, Lateral Connection을 통해 Bottom-up 경로의 동일 해상도 특징 맵과 합산(Sum)한다. 합산된 특징 맵에 3x3 Convolution을 적용하여 Upsampling으로 인한 에일리어싱 효과를 제거하고 최종 피라미드 층을 생성한다.

Lateral Connection은 하위 층의 정교한 위치 정보와 상위 층의 풍부한 의미 정보를 결합하는 역할을 한다.

12:45

Faster R-CNN과 FPN의 통합 학습

Faster R-CNN에 FPN을 적용하면 Region Proposal Network (RPN)가 단일 특징 맵이 아닌 피라미드의 모든 층에서 작동한다. 각 층의 특징 맵 크기에 맞춰 앵커(Anchor) 크기를 다르게 할당하여 다양한 스케일의 객체 후보를 생성한다. 모든 층에서 생성된 후보들을 통합하여 후처리를 진행함으로써 탐지 범위를 극대화한다.

RPN은 이미지에서 물체가 있을 법한 영역을 제안하는 네트워크이다.

17:00

적절한 텐서 스케일 선택 방법

특정 영역 제안(Region Proposal)이 주어졌을 때, 어떤 스케일의 특징 맵을 사용할지 결정하기 위해 수학적 휴리스틱을 사용한다. 제안된 영역의 너비(w)와 높호(h)를 기준으로 로그 스케일 수식을 적용하여 피라미드 층 인덱스 k를 계산한다. 큰 영역 제안은 해상도가 낮은 상위 층(Coarse Tensor)에 할당되고, 작은 영역 제안은 해상도가 높은 하위 층(Fine Tensor)에 할당된다.

이 수식은 물체의 크기에 가장 적합한 해상도의 특징 정보를 매칭하기 위한 기준이 된다.

21:40

코드 시연 및 성능 비교 결과

PyTorch를 사용하여 FPN이 적용된 모델과 적용되지 않은 모델의 성능을 보행자 탐지 데이터셋으로 비교했다. 실험 결과 FPN을 사용한 모델이 Precision과 Recall 지표 모두에서 더 높은 수치를 기록했다. 특히 시각화 결과에서 FPN 적용 모델이 겹쳐 있거나 작은 객체들을 더 깨끗하고 정확한 바운딩 박스로 탐지하는 것이 확인됐다.

Precision은 탐지한 것 중 실제 정답의 비율이며, Recall은 실제 정답 중 탐지해낸 비율이다.

실무 Takeaway

다양한 크기의 객체를 탐지해야 하는 프로젝트라면 단일 특징 맵 대신 FPN 구조를 도입하여 Recall을 높여야 한다
Top-down 경로와 Lateral Connection을 결합하면 하위 층의 세밀한 위치 정보와 상위 층의 의미 정보를 동시에 활용할 수 있다
객체 크기에 따라 적절한 특징 맵 층을 선택하는 휴리스틱 수식을 적용하여 연산 효율성을 극대화할 수 있다

언급된 리소스

논문Feature Pyramid Networks for Object Detection (Original Paper)

GitHubFPN Implementation Code (GitHub)

문서Presentation Slides

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 09.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.