TL;DR
스포츠 코칭이나 재활 치료에서 사람의 동작이 얼마나 정확한지 평가하는 것은 매우 중요하지만, 여러 각도의 카메라 영상을 동시에 분석해야 하므로 연산 비용이 매우 높았다. 이 논문은 적은 연산 자원만으로도 다중 시점 영상을 통합 분석하여 단순 점수 산출을 넘어 전문가 수준의 구체적인 조언까지 생성하는 효율적인 모델 구조를 제시한다.
왜 중요한가
스포츠 코칭이나 재활 치료에서 사람의 동작이 얼마나 정확한지 평가하는 것은 매우 중요하지만, 여러 각도의 카메라 영상을 동시에 분석해야 하므로 연산 비용이 매우 높았다. 이 논문은 적은 연산 자원만으로도 다중 시점 영상을 통합 분석하여 단순 점수 산출을 넘어 전문가 수준의 구체적인 조언까지 생성하는 효율적인 모델 구조를 제시한다.
핵심 기여
SkillFormer 아키텍처 설계
TimeSformer 백본에 LoRA를 적용하고 CrossViewFusion 모듈을 결합하여, 기존 대비 4.5배 적은 학습 파라미터와 3.75배 짧은 학습 시간으로 Ego-Exo4D 벤치마크에서 SOTA 성능을 달성했다.
PATS 템포럴 샘플링 전략
균등 샘플링 대신 숙련도 판단에 핵심적인 동작이 포함된 구간을 집중적으로 샘플링하는 아키텍처 불가지론적 전략을 통해, 모델 변경 없이도 bouldering, music 등 특정 도메인에서 성능을 크게 향상시켰다.
ProfVLM 생성형 모델 도입
숙련도 추정을 단순 분류 문제가 아닌 조건부 언어 생성 문제로 재정의하여, 숙련도 등급과 함께 전문가 스타일의 텍스트 피드백을 동시에 생성하는 최초의 Vision-Language 모델을 제안했다.
핵심 아이디어 이해하기
기존의 비디오 분석 모델은 Transformer의 Self-Attention 메커니즘을 사용하여 영상 내 모든 프레임 간의 관계를 계산하므로, 다중 시점(Multi-view) 영상 처리 시 연산량이 기하급수적으로 증가하는 한계가 있다. 특히 숙련도 평가는 동작의 아주 미세한 차이를 포착해야 하므로 단순히 영상을 이어 붙이는 방식으로는 유의미한 특징을 추출하기 어렵다.
이 연구는 모든 가중치를 새로 학습시키는 대신 LoRA(Low-Rank Adaptation)를 활용해 기존 학습된 모델의 일부 파라미터만 미세 조정함으로써 연산 효율성을 극대화한다. 여기에 CrossViewFusion이라는 전용 모듈을 추가하여, 1인칭 시점(Ego)과 여러 3인칭 시점(Exo) 영상들 사이에서 서로 보완적인 정보를 선택적으로 통합하도록 설계했다.
결과적으로 모델은 방대한 데이터를 처음부터 학습하지 않고도, '어떤 카메라 각도가 현재 동작 평가에 가장 중요한가'를 스스로 판단하게 된다. 이는 마치 숙련된 코치가 여러 각도에서 선수를 관찰하며 핵심적인 실수를 잡아내는 과정과 유사한 원리로 작동한다.
방법론
SkillFormer는 Kinetics-600으로 사전 학습된 TimeSformer 백본을 기반으로 하며, Attention 프로젝션과 Feed-forward 레이어에 LoRA를 적용해 14~27M 수준의 학습 가능한 파라미터만 유지한다. 각 시점의 특징은 CrossViewFusion 모듈로 입력되어 시점 간 정규화와 Multi-head Cross-view Attention을 거쳐 하나의 벡터로 통합된다.
PATS(Proficiency-Aware Temporal Sampling)는 전체 영상에서 고정된 프레임 예산을 균등하게 배분하는 대신, 연속적인 동작 세그먼트를 선택하고 그 내부를 밀도 있게 샘플링한다. [입력 영상의 총 길이 → 동작 구간 탐지 및 선택 → 구간 내 고밀도 프레임 추출 → 동작의 연속성 보존] 과정을 통해 미세한 움직임 변화를 더 정확히 포착한다.
ProfVLM은 Frozen 상태의 TimeSformer와 LoRA가 적용된 SmolLM2-135M 언어 모델을 연결한다. AttentiveGatedProjector(AGP)는 시점별 특징을 입력받아 [LayerNorm → Multi-head Attention → Sigmoid Gate → Linear Projection] 연산을 수행하여 시각 정보를 언어 모델의 임베딩 공간으로 정렬시킨다. 이를 통해 모델은 'Proficiency Level: ; Commentary: ' 형태의 텍스트를 생성한다.
관련 Figure

SkillFormer는 판별적 분류 헤드를 사용하는 반면, ProfVLM은 언어 모델을 통해 레이블과 피드백을 생성하는 구조적 차이를 보여준다. 두 모델 모두 TimeSformer 백본과 LoRA를 활용해 효율성을 높였음을 시각화한다.
SkillFormer와 ProfVLM의 전체 아키텍처 비교 다이어그램
주요 결과
Ego-Exo4D 데이터셋의 Ego+Exos 설정에서 SkillFormer+PATS 조합은 48.0%의 Top-1 정확도를 기록하며 기존 베이스라인(40.8%)을 크게 상회했다. 특히 121M 개의 파라미터를 가진 기존 모델보다 훨씬 적은 27M 개의 파라미터만으로도 더 높은 성능을 보였다.
ProfVLM은 단 8개의 프레임과 5.3M 개의 학습 파라미터만 사용하고도 48.2%의 정확도를 달성하여 효율성 측면에서 압도적인 결과를 보였다. 생성된 피드백의 품질 측정 결과, BERTScore 85.53, METEOR 18.23을 기록하며 실제 전문가의 코멘트와 유사한 수준의 문장을 생성함을 입증했다.
도메인별 분석에서는 bouldering, music, basketball과 같이 시간적 연속성이 중요한 종목에서 PATS 샘플링 전략이 가장 큰 성능 향상을 이끌어냈으며, 이는 숙련도 평가에서 국소적 템포럴 밀도가 중요함을 시사한다.
기술 상세
본 연구는 다중 시점 데이터의 효율적 융합을 위해 CrossViewFusion 모듈을 제안하며, 이는 시점별 스칼라 게이트와 학습 가능한 통계 기반의 적응형 자기 보정(Adaptive Self-calibration) 메커니즘을 포함한다. 이는 단순한 특징 연결(Concatenation)이 유용한 정보를 희석시킬 수 있다는 문제를 해결한다.
ProfVLM 아키텍처는 시각 인코더를 고정(Frozen)하고 경량 언어 모델(SmolLM2)에 LoRA를 적용하는 방식을 취한다. AGP 프로젝터는 시각 토큰을 언어 모델의 특수 토큰으로 삽입하며, 인과적 언어 모델링(Causal Language Modeling) 목적 함수를 통해 레이블과 설명을 동시에 학습한다.
실험 결과는 다중 시점 가용성보다 '시점 간 정렬 및 선택적 융합'이 성능에 더 결정적인 영향을 미침을 보여준다. 또한, 도메인별로 최적의 카메라 시점과 샘플링 밀도가 다르다는 점을 발견하여, 향후 단일 거대 모델보다는 도메인 특화 어댑터를 사용하는 방향이 유망함을 제시한다.
관련 Figure

Multi-Head Attention과 Gate 메커니즘을 거쳐 여러 시점의 정보를 어떻게 가중합하고 보정하는지 상세히 나타낸다. 이 모듈이 SkillFormer의 높은 성능과 효율성의 핵심임을 설명한다.
다중 시점 특징 융합을 위한 CrossViewFusion 모듈의 상세 구조
한계점
도메인별로 최적의 시점 구성이 상이하여 모든 활동에 공통적으로 적용되는 단일 설정이 존재하지 않으며, 장기적인 세션 간 피드백 적응이나 개인화된 코칭 기능은 아직 구현되지 않았다.
실무 활용
저사양 하드웨어에서도 구동 가능한 가벼운 모델 구조를 채택하고 있어, 실시간 스포츠 코칭 앱이나 가정용 재활 보조 시스템에 즉시 응용 가능하다.
- 스마트폰 카메라 여러 대를 연결하여 운동 선수의 폼을 교정해주는 AI 코칭 서비스
- 환자의 재활 운동 영상을 분석하여 물리치료사 수준의 피드백을 제공하는 원격 의료 시스템
- 제조 현장에서 숙련공과 비숙련공의 작업 동작 차이를 분석하여 교육 자료 생성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.