코트로 나선 VLM: 스포츠 공간 지능 벤치마킹

왜 중요한가

기존 AI는 정적인 물체 사이의 거리는 잘 측정하지만, 격렬하게 움직이는 스포츠 경기 중 선수와 공의 위치 관계를 파악하는 데는 한계가 있다. 이 논문은 실제 경기장 규격을 기준으로 3D 공간을 복원해 AI가 스포츠 상황에서 정밀한 공간 추론을 할 수 있도록 돕는 대규모 데이터셋과 평가 체계를 제공한다.

핵심 기여

CourtSI 데이터셋 구축

배드민턴, 테니스, 탁구 등 네트 스포츠를 대상으로 100만 개 이상의 QA 쌍을 포함하는 최초의 대규모 스포츠 공간 지능 데이터셋을 구축함.

반자동 데이터 엔진 개발

단안 카메라 영상에서 경기장 기하학 구조를 활용해 선수와 공의 3D 위치를 cm 단위 오차로 복원하는 파이프라인을 설계함.

CourtSI-Bench 평가 체계

인간의 검증을 거친 3,686개의 고품질 QA 쌍을 통해 25종의 최신 VLM 성능을 정밀하게 측정하고 인간과의 성능 격차를 확인함.

공간 인지형 해설 생성

모델이 수치적 거리 정보를 해설에 자연스럽게 통합하도록 유도하여 스포츠 중계의 질을 높이는 실무적 활용 가능성을 입증함.

핵심 아이디어 이해하기

Transformer 기반의 VLM은 웹상의 2D 이미지 데이터를 주로 학습하여 3D 공간에 대한 깊이 있는 이해가 부족하다. 특히 Attention 메커니즘이 이미지 내 객체 간의 픽셀 거리에는 민감할 수 있으나, 실제 물리적 세계의 미터(m) 단위 거리를 추론하는 데는 기존 데이터셋의 정적인 특성 때문에 한계가 있었다. 이 논문은 경기장의 규격화된 기하학적 구조를 앵커로 활용한다. 카메라의 내부 및 외부 파라미터를 PnP 솔버로 최적화하여 2D 픽셀 좌표를 실제 3D 세계 좌표계로 변환함으로써, AI가 단순한 시각적 관계를 넘어 물리적 수치를 학습할 수 있는 환경을 조성한다. 이를 통해 AI는 선수의 골반 위치나 공의 궤적을 3D 공간에서 추적하며 선수와 네트 사이의 수직 거리와 같은 정밀한 질문에 답할 수 있게 된다. 이는 단순한 객체 탐지를 넘어 동적인 인간 행동과 물체 상호작용을 물리적 법칙 안에서 이해하게 만드는 과정이다.

방법론

반자동 데이터 엔진은 경기장 모서리와 네트 높이를 기준으로 카메라 파라미터를 추정한다. PnP 솔버를 통해 [2D 이미지 좌표 → 3D 월드 좌표 변환 행렬 계산 → 실제 거리 산출] 과정을 거쳐 물리적으로 정렬된 공간을 구축한다. 선수 위치 파악을 위해 PromptHMR을 사용하여 SMPL-X 기반의 인간 메쉬를 복원한다. 이때 단안 깊이 추정의 오차를 줄이기 위해 지면과 접촉하는 메쉬의 최하단 정점을 기준으로 깊이를 재정렬하는 전략을 사용한다. 공의 3D 위치를 찾기 위해 2D 픽셀 p를 3D 광선 X(λ) = -R^T t + λ R^T K^-1 p로 변환한다. [카메라 파라미터 R, t, K와 픽셀 좌표 p를 입력으로] → [역투영 연산을 수행해 카메라에서 픽셀을 통과하는 무한한 직선을 얻고] → [이 직선이 지면과 만나는 지점의 λ 값을 계산해] → [공이 지면 위에 투영된 실제 3D 좌표를 얻는다]. 이후 94개의 템플릿을 사용하여 공간 계산, 거리 측정, 위치 파악, 관계 추론의 4가지 범주로 QA를 자동 생성한다.

주요 결과

25종의 VLM을 CourtSI-Bench에서 평가한 결과, 인간(73.6%) 대비 모델들의 성능이 크게 낮았으며 특히 거리 측정 작업에서 취약함을 보였다. Gemini-3-Pro가 상용 모델 중 가장 높은 성능인 64.6%를 기록했다. Qwen3-VL-8B를 CourtSI 데이터셋으로 지도 미세 조정한 결과, 전체 정확도가 23.5%p 향상되었으며 특히 거리 측정 분야에서 괄목할만한 개선이 확인됐다. 학습에 사용되지 않은 스포츠인 피클볼 기반의 CourtSI-Ext에서도 미세 조정된 모델이 베이스 모델 대비 13.2%p 높은 정확도를 기록하며 공간 추론 능력의 전이 가능성을 입증했다.

기술 상세

아키텍처는 단안 이미지에서 3D 장면을 복원하는 기하학적 파이프라인과 이를 QA 형태로 변환하는 생성 엔진으로 구성된다. 경기장 규격을 사전 지식으로 활용하여 카메라 캘리브레이션을 수행하는 것이 핵심이다. 인간 메쉬 복원 시 PromptHMR을 사용하며, SMPL-X 파라미터를 카메라 좌표계에서 추정한다. 깊이 모호성을 해결하기 위해 지면 접촉 정점의 높이를 수동 주석으로 보정하여 메쉬를 재배치하는 Perspective Transformation 기법을 적용한다. QA 생성은 실제 단위 기반의 거리 측정 및 신체 부위별 추론 특성을 갖는다. 골반을 신체 중심점으로 설정하여 선수 간 거리를 측정하거나, 네트 및 서비스 라인과의 관계를 논리적으로 도출한다.

한계점

인간 평가자조차 경기장 기하학 참조 없이는 절대 거리 추정에서 성능이 저하되는 한계가 있으며, VLM 역시 2D 투영으로 인한 시점 모호성이 클수록 성능이 급격히 떨어진다.

실무 활용

스포츠 중계 시스템에서 AI가 선수 간의 거리나 공의 속도를 실시간으로 파악하여 전문적인 해설을 생성하는 데 즉시 활용될 수 있다. 또한 선수들의 위치 데이터를 기반으로 한 정밀한 경기 진단 도구 개발에 기여할 수 있다.

AI 기반 실시간 스포츠 경기 파악 및 자동 해설 생성
선수들의 움직임 데이터를 활용한 전술 파악 소프트웨어
증강 현실 기반의 스포츠 중계 시각화 도구
VLM의 3D 공간 인지 능력 향상을 위한 사전 학습 데이터셋

코드 공개 여부: 공개

코드 저장소 보기

키워드

공간 지능(Spatial Intelligence)VLM(시각 언어 모델)스포츠 데이터(Sports Data)3D 장면 복원(3D Scene Reconstruction)벤치마크(Benchmark)

용어 해설

PnP 솔버(PnP Solver): — 2D 이미지의 특징점과 대응하는 3D 월드 좌표를 이용해 카메라의 위치와 방향 및 초점 거리를 계산하는 알고리즘이다. 스포츠 경기장의 규격화된 코너 점들을 기준으로 카메라의 물리적 위치를 정확히 파악하여, 픽셀 단위의 정보를 실제 미터(m) 단위의 3D 공간 정보로 변환하는 핵심 역할을 수행한다.
SMPL-X: — 인체의 형태, 자세뿐만 아니라 손동작과 얼굴 표정까지 정교하게 표현할 수 있는 3D 인간 모델링 파라미터 체계이다. 이 논문에서는 스포츠 선수의 복잡한 움직임을 단순한 상자로 표현하는 대신, 메쉬 형태로 복원하여 신체 부위별 정밀한 공간 위치 추론을 가능하게 하는 기초 데이터로 쓰인다.
시각 언어 모델(VLM): — 이미지나 비디오 같은 시각적 정보와 텍스트 정보를 동시에 처리하고 이해할 수 있는 인공지능 모델이다. 단순히 이미지를 분류하는 수준을 넘어 선수와 공 사이의 거리 등을 묻는 자연어 질문에 답할 수 있게 하며, 최근에는 2D 추론을 넘어 3D 공간 지능을 갖추는 방향으로 연구가 확장 중이다.
지도 미세 조정(SFT): — 이미 대규모 데이터로 사전 학습된 모델을 특정 작업이나 도메인에 맞게 정답이 있는 데이터셋으로 추가 학습시키는 기법이다. 본 연구에서는 일반적인 시각 능력을 갖춘 Qwen3-VL 모델을 CourtSI 데이터셋으로 학습시켜, 스포츠 경기장 내의 정밀한 거리 측정 및 공간 관계 추론 능력을 비약적으로 향상시켰다.