이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
DETR에서 영감을 받은 Transformer 아키텍처를 활용하여 비디오의 시각적 특징과 선수의 위치 데이터를 효과적으로 결합함으로써 단일 모델로 높은 감지 성능을 달성했다.
배경
NFL 경기 중 발생하는 선수 간의 접촉 및 지면 충격을 정확하게 감지하여 부상 방지 및 안전 대책을 마련하기 위한 Kaggle 경진대회 솔루션이다.
대상 독자
컴퓨터 비전 및 센서 데이터 융합에 관심 있는 데이터 과학자 및 ML 엔지니어
의미 / 영향
이 솔루션은 스포츠 분석에서 영상과 센서 데이터를 융합하는 표준적인 방법론을 제시했다. 특히 Transformer를 활용한 시공간적 관계 모델링은 선수 부상 방지뿐만 아니라 경기 전술 분석 등 다양한 스포츠 도메인에 즉시 적용 가능하다. 데이터 전처리 단계에서의 기하학적 보정 기법은 노이즈가 많은 실전 데이터 환경에서 모델의 신뢰도를 높이는 데 기여했다.
챕터별 상세
00:00
솔루션 영감 및 기본 아이디어
DETR(Detection Transformer) 아키텍처에서 영감을 받아 비디오 인코더와 Transformer 디코더를 결합한 엔드투엔드 모델을 설계했다. 비디오 인코더는 TSM이나 2D+3D CNN을 사용하여 영상의 특징을 추출하고, Transformer 디코더는 이 특징들과 여러 선수의 트래킹 데이터를 결합한다. 기존의 많은 솔루션이 선수 쌍(Pair) 단위로 예측하는 것과 달리, 특정 선수 한 명을 중심으로 주변 선수들과의 관계를 예측하는 방식을 채택했다.
- •DETR 아키텍처를 비디오 객체 탐지에 맞게 변형하여 적용했다
- •비디오 인코더로 TSM 또는 2D+3D CNN 기반 모델을 사용했다
- •선수 쌍 단위가 아닌 단일 선수 중심의 예측 접근법을 사용했다
03:35
모델 아키텍처 상세 구조
Sideline과 Endzone 두 방향의 비디오 프레임을 입력으로 받아 비디오 인코더를 통해 특징 맵을 생성했다. 각 타임스텝별로 추출된 특징에 위치 인코딩(Position Encoding)과 프레임 번호 인코딩을 추가하여 시간적, 공간적 정보를 보존했다. Transformer 인코더는 비디오 특징을 쿼리하고, 셀프 어텐션(Self-Attention) 메커니즘을 통해 모든 타임스텝과 선수들 간의 관계를 학습했다. 최종적으로 활성화된 특징들을 결합하여 현재 선수의 지면 접촉 여부와 주변 선수들과의 접촉 여부를 동시에 예측했다.
- •두 가지 뷰(Sideline, Endzone)의 비디오 데이터를 동시에 활용했다
- •위치 인코딩과 프레임 마커를 통해 시공간 정보를 통합했다
- •Transformer의 어텐션 메커니즘으로 선수 간 상호작용을 모델링했다
06:01
피처 엔지니어링 및 선택
헬멧의 위치 정보, 팀 정보, 현재 선수와의 거리, 선수의 역할(Role) 등 다양한 트래킹 데이터를 모델의 입력 피처로 사용했다. 특히 2개 타임스텝에 걸친 속도와 가속도, 선수들 간의 상대적 방향 정보를 포함하여 동적인 움직임을 반영했다. Transformer 모델이 이러한 피처들에 과적합(Overfitting)되기 쉬우므로, 성능 향상에 실질적으로 기여하는 핵심 피처들만 신중하게 선택하여 구성했다.
- •헬멧 위치와 팀 정보 등 기본적인 트래킹 데이터를 활용했다
- •속도, 가속도, 상대적 방향 등 동적 움직임 피처를 추가했다
- •과적합 방지를 위해 성능 기여도가 높은 피처 위주로 최적화했다
07:29
학습 방법 및 검증 전략
단일 단계(Single-stage) 엔드투엔드 학습 방식을 사용하여 학습 과정을 단순화했다. 여러 모델의 예측값을 평균 내는 단순 앙상블 기법을 적용하여 성능을 안정화했다. 검증을 위해 게임 ID별로 그룹화된 4-폴드 교차 검증(4-fold Cross-Validation)을 수행했으며, 게임 이름순으로 정렬하여 미래의 게임에 대한 일반화 성능을 테스트했다. 폴드 간 성능 차이가 크게 나타나는 현상을 확인했으며, 이는 데이터셋의 노이즈와 일반화의 어려움을 시사했다.
- •엔드투엔드 단일 단계 학습으로 파이프라인을 단순화했다
- •게임 ID 기반의 4-폴드 교차 검증으로 모델을 평가했다
- •단순 평균 앙상블을 통해 최종 예측 성능을 향상시켰
09:04
헬멧 추적 오류 수정 및 광학 흐름 적용
기본 제공된 헬멧과 선수 매칭 데이터의 오류를 수정하기 위해 카메라 뷰와 트래킹 데이터 간의 원근 투영(Perspective Projection)을 계산했다. RANSAC 회귀를 사용하여 프레임 간의 부드러운 변화를 유도하고 잘못 매칭된 쌍을 재할당했다. 또한 Optical Flow 모델을 학습시켜 카메라의 움직임을 예측하고, 이를 투영 행렬의 연속성 제약 조건으로 활용했다. 이 과정을 통해 시각적으로 거의 모든 할당 오류를 해결했으며, 검증 점수에서 최대 0.5%의 성능 향상을 확인했다.
- •RANSAC 회귀를 이용해 헬멧-선수 매칭 오류를 보정했다
- •Optical Flow로 카메라 움직임을 예측하여 투영의 일관성을 확보했다
- •데이터 보정을 통해 검증 점수(CV)를 유의미하게 개선했다
실무 Takeaway
- 비디오의 시각적 특징과 센서의 수치 데이터를 결합할 때 Transformer의 디코더 구조가 매우 효과적이다
- 선수 쌍 단위의 예측보다 단일 선수 중심의 다중 관계 예측이 모델 구조를 단순화하고 효율성을 높일 수 있다
- 데이터셋 자체의 매칭 오류(헬멧-선수)를 Optical Flow와 기하학적 투영으로 보정하는 것이 성능 향상의 핵심이다
- 비디오 인코더로 TSM을 사용하면 추가 연산 부담 없이 시간적 맥락을 CNN 구조에 통합할 수 있다
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.