핵심 요약
YOLO(You Only Look Once)는 비디오에서 실시간으로 여러 객체를 식별하고 위치를 파악할 수 있는 고속 딥 뉴럴 네트워크 아키텍처이다. 기존의 2단계 방식과 달리 단일 통과(One-pass)로 분류와 지역화를 동시에 수행하여 높은 프레임 속도를 구현한다. 본 아키텍처는 입력 이미지를 그리드로 나누고, 각 셀에서 객체 확률과 바운딩 박스 좌표를 예측하는 방식을 취한다. 2015년 첫 등장 이후 v12에 이르기까지 어텐션 메커니즘 도입과 효율성 최적화를 통해 성능을 지속적으로 개선해왔다.
배경
Convolutional Neural Networks (CNN) 기본 개념, 딥러닝 학습 및 추론 프로세스 이해, 바운딩 박스 및 객체 분류 개념
대상 독자
컴퓨터 비전 엔지니어 및 실시간 객체 탐지 시스템 개발자
의미 / 영향
YOLO의 지속적인 발전은 엣지 디바이스에서도 고성능 객체 탐지를 가능하게 하여 자율 주행 및 스마트 시티 인프라 확산에 기여한다. 특히 최신 버전들의 효율성 개선은 하드웨어 요구 사양을 낮추면서도 정확도를 높이는 방향으로 진화하고 있다.
섹션별 상세





실무 Takeaway
- 실시간성이 중요한 자율 주행이나 로보틱스 분야에서는 2단계 모델보다 YOLO와 같은 단일 통과 방식의 모델이 더 적합하다.
- 객체가 겹치거나 밀집된 환경에서는 적절한 크기의 앵커 박스를 설정하고 NMS 임계값을 튜닝하여 탐지 누락을 방지해야 한다.
- 최신 YOLOv12는 효율적인 영역 어텐션(A2) 모듈을 도입하여 기존 CNN 기반 모델의 속도와 트랜스포머의 정확도를 결합했다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.