YOLO(You Only Look Once) 객체 탐지 알고리즘의 이해와 아키텍처 분석

핵심 요약

YOLO는 2015년 처음 등장한 이후 실시간 객체 탐지 분야의 표준으로 자리 잡은 딥러닝 아키텍처이다. 기존 모델들이 객체 후보를 찾고 분류하는 두 단계를 거쳤던 것과 달리, YOLO는 전체 이미지를 단일 신경망에 통과시켜 분류와 경계 상자(Bounding Box) 예측을 동시에 수행한다. 이러한 단일 패스(One-pass) 방식 덕분에 초당 65프레임 이상의 빠른 속도를 구현하며 자율 주행 및 로보틱스 분야에서 널리 활용된다. 본문은 YOLO의 기본 원리부터 최신 버전인 v12까지의 기술적 진화 과정을 상세히 다룬다.

배경

합성곱 신경망(CNN)의 기본 원리, 행렬 및 텐서 연산에 대한 기초 지식, 객체 탐지(Object Detection)의 기본 개념

대상 독자

컴퓨터 비전 엔지니어 및 실시간 객체 탐지 시스템 개발자

의미 / 영향

YOLO의 지속적인 발전은 고성능 하드웨어 없이도 정교한 객체 탐지를 가능하게 하여 스마트 시티, 로보틱스, 모바일 앱 등 다양한 산업 분야에서 AI 도입 장벽을 낮추고 있다. 특히 최신 버전의 효율적인 아키텍처는 온디바이스 AI 구현에 핵심적인 역할을 할 것으로 기대된다.

섹션별 상세

YOLO 아키텍처는 입력 이미지를 고정된 격자(Grid)로 나누고 각 격자 셀에서 객체 탐지를 동시에 수행한다. 각 격자 셀은 해당 영역에 객체의 중심이 포함되어 있는지를 판단하고, 객체가 존재할 경우 그 종류와 위치 정보를 담은 출력 벡터를 생성한다. 이러한 방식은 이미지 전체의 문맥을 한 번에 파악할 수 있게 하여 배경을 객체로 오인하는 오류를 줄여준다.

YOLO의 핵심 모델인 합성곱 신경망(ConvNet)은 필터를 사용하여 이미지의 공간적 특징을 추출한다. 3x3 크기의 필터가 이미지를 스캔하며 픽셀 값과 가중치를 곱해 합산하는 과정을 통해 형태나 질감 같은 중요한 시각적 정보를 학습한다. 딥러닝 기반의 YOLO는 이를 3차원 텐서(Tensor) 구조로 확장하여 RGB 채널 정보를 포함한 복잡한 패턴을 효과적으로 처리한다.

모델의 출력 벡터는 객체 존재 확률(pc), 경계 상자 좌표(bx, by, bh, bw), 그리고 클래스 확률(c)로 구성된다. pc 값이 0.5 미만인 경우 해당 격자에는 객체가 없는 것으로 간주하여 나머지 데이터를 무시함으로써 연산 효율을 높인다. 경계 상자 좌표는 격자 셀의 왼쪽 상단을 (0,0), 오른쪽 하단을 (1,1)로 정의한 상대적 좌표계를 사용하여 객체의 정확한 위치와 크기를 표현한다.

한 격자 셀 내에 여러 객체가 겹쳐 있는 상황을 해결하기 위해 앵커 박스(Anchor Box) 개념을 도입했다. 앵커 박스는 보행자처럼 세로로 긴 형태나 차량처럼 가로로 넓은 형태 등 미리 정의된 다양한 비율의 상자들을 의미한다. 각 격자 셀은 할당된 여러 앵커 박스별로 별도의 출력 벡터를 생성하여, 한 위치에서 서로 다른 형태의 객체들을 동시에 탐지할 수 있다.

중복 탐지 문제를 해결하는 비최대 억제(Non-Max Suppression, NMS) 알고리즘은 최종 출력의 정밀도를 높이는 필수 단계이다. 객체가 여러 격자 셀에 걸쳐 있을 때 여러 개의 경계 상자가 생성될 수 있는데, NMS는 예측 확률이 가장 높은 상자를 기준으로 다른 상자들과의 교집합 면적(IoU)을 계산한다. IoU가 일정 임계값 이상인 중복 상자들을 제거하여 각 객체당 단 하나의 최적 상자만 남긴다.

YOLOv1부터 v12까지의 진화는 속도와 정확도의 지속적인 개선을 보여준다. 초기 버전은 다크넷(Darknet) 아키텍처를 기반으로 했으나, 최신 버전인 v10은 NMS가 필요 없는 학습 방식을 도입했고 v12는 어텐션(Attention) 메커니즘을 적용한 A2 모듈을 통해 CNN 기반 모델의 속도를 유지하면서도 정확도를 크게 향상시켰다. 이러한 발전은 엣지 디바이스부터 고성능 GPU까지 다양한 환경에서의 배포를 가능하게 한다.

이미지 분석

Diagram
입력 이미지가 ConvNet을 거쳐 출력 텐서로 변환되고, NMS 과정을 통해 최종적으로 객체 분류와 경계 상자가 생성되는 전체 워크플로우를 설명한다. YOLO가 단일 패스로 작동함을 시각적으로 증명한다.
YOLO의 전체적인 객체 탐지 파이프라인을 보여주는 다이어그램이다.

Diagram
24개의 합성곱 계층과 맥스풀 계층, 그리고 최종 출력을 위한 완전 연결 계층의 구성을 보여준다. 데이터가 계층을 통과함에 따라 공간 차원은 줄어들고 채널 차원이 늘어나는 과정을 수치와 함께 명시한다.
YOLOv1의 신경망 아키텍처 세부 구조도이다.

Diagram
격자 셀 내부의 상대 좌표(bx, by)와 크기(bh, bw)가 출력 벡터에 어떻게 매핑되는지 보여준다. 모델이 객체의 위치를 수치화하는 구체적인 메커니즘을 이해하는 데 필수적이다.
격자 셀 내의 경계 상자 좌표 시스템을 설명하는 이미지이다.

Diagram
사람과 자동차가 겹쳐 있는 상황에서 서로 다른 비율의 앵커 박스(A1, A2)가 각각의 객체를 어떻게 할당받아 처리하는지 설명한다. 복잡한 장면에서의 탐지 능력을 높이는 핵심 기법을 묘사한다.
앵커 박스를 이용해 한 격자 내의 여러 객체를 탐지하는 방식을 보여준다.

실무 Takeaway

실시간성이 중요한 자율 주행이나 보안 시스템에서는 2단계 방식보다 YOLO와 같은 1단계(One-stage) 탐지기를 사용하는 것이 지연 시간 단축에 유리하다.
앵커 박스의 크기와 비율을 탐지하려는 대상의 특성에 맞춰 최적화하면 모델의 탐지 정확도를 실질적으로 향상시킬 수 있다.
NMS 임계값과 객체 존재 확률(pc) 기준치를 조정함으로써 특정 애플리케이션에 필요한 정밀도(Precision)와 재현율(Recall) 사이의 균형을 맞출 수 있다.

언급된 리소스

논문You Only Look Once: Unified, Real-Time Object Detection

GitHubYOLO GitHub Repository