핵심 요약
YOLO는 2015년 처음 등장한 이후 실시간 객체 탐지 분야의 표준으로 자리 잡은 딥러닝 아키텍처이다. 기존 모델들이 객체 후보를 찾고 분류하는 두 단계를 거쳤던 것과 달리, YOLO는 전체 이미지를 단일 신경망에 통과시켜 분류와 경계 상자(Bounding Box) 예측을 동시에 수행한다. 이러한 단일 패스(One-pass) 방식 덕분에 초당 65프레임 이상의 빠른 속도를 구현하며 자율 주행 및 로보틱스 분야에서 널리 활용된다. 본문은 YOLO의 기본 원리부터 최신 버전인 v12까지의 기술적 진화 과정을 상세히 다룬다.
배경
합성곱 신경망(CNN)의 기본 원리, 행렬 및 텐서 연산에 대한 기초 지식, 객체 탐지(Object Detection)의 기본 개념
대상 독자
컴퓨터 비전 엔지니어 및 실시간 객체 탐지 시스템 개발자
의미 / 영향
YOLO의 지속적인 발전은 고성능 하드웨어 없이도 정교한 객체 탐지를 가능하게 하여 스마트 시티, 로보틱스, 모바일 앱 등 다양한 산업 분야에서 AI 도입 장벽을 낮추고 있다. 특히 최신 버전의 효율적인 아키텍처는 온디바이스 AI 구현에 핵심적인 역할을 할 것으로 기대된다.
섹션별 상세
이미지 분석

입력 이미지가 ConvNet을 거쳐 출력 텐서로 변환되고, NMS 과정을 통해 최종적으로 객체 분류와 경계 상자가 생성되는 전체 워크플로우를 설명한다. YOLO가 단일 패스로 작동함을 시각적으로 증명한다.
YOLO의 전체적인 객체 탐지 파이프라인을 보여주는 다이어그램이다.

24개의 합성곱 계층과 맥스풀 계층, 그리고 최종 출력을 위한 완전 연결 계층의 구성을 보여준다. 데이터가 계층을 통과함에 따라 공간 차원은 줄어들고 채널 차원이 늘어나는 과정을 수치와 함께 명시한다.
YOLOv1의 신경망 아키텍처 세부 구조도이다.

격자 셀 내부의 상대 좌표(bx, by)와 크기(bh, bw)가 출력 벡터에 어떻게 매핑되는지 보여준다. 모델이 객체의 위치를 수치화하는 구체적인 메커니즘을 이해하는 데 필수적이다.
격자 셀 내의 경계 상자 좌표 시스템을 설명하는 이미지이다.

사람과 자동차가 겹쳐 있는 상황에서 서로 다른 비율의 앵커 박스(A1, A2)가 각각의 객체를 어떻게 할당받아 처리하는지 설명한다. 복잡한 장면에서의 탐지 능력을 높이는 핵심 기법을 묘사한다.
앵커 박스를 이용해 한 격자 내의 여러 객체를 탐지하는 방식을 보여준다.
실무 Takeaway
- 실시간성이 중요한 자율 주행이나 보안 시스템에서는 2단계 방식보다 YOLO와 같은 1단계(One-stage) 탐지기를 사용하는 것이 지연 시간 단축에 유리하다.
- 앵커 박스의 크기와 비율을 탐지하려는 대상의 특성에 맞춰 최적화하면 모델의 탐지 정확도를 실질적으로 향상시킬 수 있다.
- NMS 임계값과 객체 존재 확률(pc) 기준치를 조정함으로써 특정 애플리케이션에 필요한 정밀도(Precision)와 재현율(Recall) 사이의 균형을 맞출 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료