왜 중요한가
기존 AI는 정적인 물체 사이의 거리는 잘 측정하지만, 격렬하게 움직이는 스포츠 경기 중 선수와 공의 위치 관계를 파악하는 데는 한계가 있다. 이 논문은 실제 경기장 규격을 기준으로 3D 공간을 복원해 AI가 스포츠 상황에서 정밀한 공간 추론을 할 수 있도록 돕는 대규모 데이터셋과 평가 체계를 제공한다.
핵심 기여
CourtSI 데이터셋 구축
배드민턴, 테니스, 탁구 등 네트 스포츠를 대상으로 100만 개 이상의 QA 쌍을 포함하는 최초의 대규모 스포츠 공간 지능 데이터셋을 구축함.
반자동 데이터 엔진 개발
단안 카메라 영상에서 경기장 기하학 구조를 활용해 선수와 공의 3D 위치를 cm 단위 오차로 복원하는 파이프라인을 설계함.
CourtSI-Bench 평가 체계
인간의 검증을 거친 3,686개의 고품질 QA 쌍을 통해 25종의 최신 VLM 성능을 정밀하게 측정하고 인간과의 성능 격차를 확인함.
공간 인지형 해설 생성
모델이 수치적 거리 정보를 해설에 자연스럽게 통합하도록 유도하여 스포츠 중계의 질을 높이는 실무적 활용 가능성을 입증함.
핵심 아이디어 이해하기
Transformer 기반의 VLM은 웹상의 2D 이미지 데이터를 주로 학습하여 3D 공간에 대한 깊이 있는 이해가 부족하다. 특히 Attention 메커니즘이 이미지 내 객체 간의 픽셀 거리에는 민감할 수 있으나, 실제 물리적 세계의 미터(m) 단위 거리를 추론하는 데는 기존 데이터셋의 정적인 특성 때문에 한계가 있었다. 이 논문은 경기장의 규격화된 기하학적 구조를 앵커로 활용한다. 카메라의 내부 및 외부 파라미터를 PnP 솔버로 최적화하여 2D 픽셀 좌표를 실제 3D 세계 좌표계로 변환함으로써, AI가 단순한 시각적 관계를 넘어 물리적 수치를 학습할 수 있는 환경을 조성한다. 이를 통해 AI는 선수의 골반 위치나 공의 궤적을 3D 공간에서 추적하며 선수와 네트 사이의 수직 거리와 같은 정밀한 질문에 답할 수 있게 된다. 이는 단순한 객체 탐지를 넘어 동적인 인간 행동과 물체 상호작용을 물리적 법칙 안에서 이해하게 만드는 과정이다.
방법론
반자동 데이터 엔진은 경기장 모서리와 네트 높이를 기준으로 카메라 파라미터를 추정한다. PnP 솔버를 통해 [2D 이미지 좌표 → 3D 월드 좌표 변환 행렬 계산 → 실제 거리 산출] 과정을 거쳐 물리적으로 정렬된 공간을 구축한다. 선수 위치 파악을 위해 PromptHMR을 사용하여 SMPL-X 기반의 인간 메쉬를 복원한다. 이때 단안 깊이 추정의 오차를 줄이기 위해 지면과 접촉하는 메쉬의 최하단 정점을 기준으로 깊이를 재정렬하는 전략을 사용한다. 공의 3D 위치를 찾기 위해 2D 픽셀 p를 3D 광선 X(λ) = -R^T t + λ R^T K^-1 p로 변환한다. [카메라 파라미터 R, t, K와 픽셀 좌표 p를 입력으로] → [역투영 연산을 수행해 카메라에서 픽셀을 통과하는 무한한 직선을 얻고] → [이 직선이 지면과 만나는 지점의 λ 값을 계산해] → [공이 지면 위에 투영된 실제 3D 좌표를 얻는다]. 이후 94개의 템플릿을 사용하여 공간 계산, 거리 측정, 위치 파악, 관계 추론의 4가지 범주로 QA를 자동 생성한다.
주요 결과
25종의 VLM을 CourtSI-Bench에서 평가한 결과, 인간(73.6%) 대비 모델들의 성능이 크게 낮았으며 특히 거리 측정 작업에서 취약함을 보였다. Gemini-3-Pro가 상용 모델 중 가장 높은 성능인 64.6%를 기록했다. Qwen3-VL-8B를 CourtSI 데이터셋으로 지도 미세 조정한 결과, 전체 정확도가 23.5%p 향상되었으며 특히 거리 측정 분야에서 괄목할만한 개선이 확인됐다. 학습에 사용되지 않은 스포츠인 피클볼 기반의 CourtSI-Ext에서도 미세 조정된 모델이 베이스 모델 대비 13.2%p 높은 정확도를 기록하며 공간 추론 능력의 전이 가능성을 입증했다.
실무 활용
스포츠 중계 시스템에서 AI가 선수 간의 거리나 공의 속도를 실시간으로 파악하여 전문적인 해설을 생성하는 데 즉시 활용될 수 있다. 또한 선수들의 위치 데이터를 기반으로 한 정밀한 경기 진단 도구 개발에 기여할 수 있다.
- AI 기반 실시간 스포츠 경기 파악 및 자동 해설 생성
- 선수들의 움직임 데이터를 활용한 전술 파악 소프트웨어
- 증강 현실 기반의 스포츠 중계 시각화 도구
- VLM의 3D 공간 인지 능력 향상을 위한 사전 학습 데이터셋
기술 상세
아키텍처는 단안 이미지에서 3D 장면을 복원하는 기하학적 파이프라인과 이를 QA 형태로 변환하는 생성 엔진으로 구성된다. 경기장 규격을 사전 지식으로 활용하여 카메라 캘리브레이션을 수행하는 것이 핵심이다. 인간 메쉬 복원 시 PromptHMR을 사용하며, SMPL-X 파라미터를 카메라 좌표계에서 추정한다. 깊이 모호성을 해결하기 위해 지면 접촉 정점의 높이를 수동 주석으로 보정하여 메쉬를 재배치하는 Perspective Transformation 기법을 적용한다. QA 생성은 실제 단위 기반의 거리 측정 및 신체 부위별 추론 특성을 갖는다. 골반을 신체 중심점으로 설정하여 선수 간 거리를 측정하거나, 네트 및 서비스 라인과의 관계를 논리적으로 도출한다.
한계점
인간 평가자조차 경기장 기하학 참조 없이는 절대 거리 추정에서 성능이 저하되는 한계가 있으며, VLM 역시 2D 투영으로 인한 시점 모호성이 클수록 성능이 급격히 떨어진다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.