핵심 요약
MediaPipe 랜드마크 데이터에 1D-CNN과 Transformer를 결합한 하이브리드 구조를 적용하고, 가변 길이 입력을 위한 마스킹 기법과 강력한 규제(Regularization)를 통해 높은 정확도와 실시간성을 동시에 확보했습니다.
배경
구글이 주최한 고립 수어 인식 경진대회(Google Isolated Sign Language Recognition)에서 우승한 Hoyeol Sohn 팀의 기술적 접근법을 다룹니다.
대상 독자
Kaggle 참여자, 컴퓨터 비전 개발자, 경량 모델 최적화 관심자
의미 / 영향
이 솔루션은 모바일 기기에서 실시간으로 작동 가능한 고성능 수어 인식 시스템의 표준 아키텍처를 제시했다. 특히 랜드마크 데이터만을 활용하여 개인정보 보호와 연산 효율성을 동시에 달성함으로써 실제 서비스 적용 가능성을 높였다. 1D-CNN과 Transformer의 효율적인 결합 방식은 다른 시계열 센서 데이터 분석 분야에도 즉시 응용 가능하다. 또한 TFLite 최적화 과정에서 보여준 마스킹 기법은 경량 딥러닝 모델 배포의 실무적 가이드라인을 제공한다.
챕터별 상세
배경 및 대회 개요
- •MediaPipe Holistic을 통해 추출된 XYZ 좌표 데이터를 입력으로 사용했다
- •모바일 환경을 고려하여 TFLite 모델 제출이 필수 조건이었다
- •250개의 고립된 수어 단어를 정확하게 분류하는 것이 목표였다
모델 설계 전략
- •모델 구조, 전처리, 압축, 규제의 4단계 반복 개선 프로세스를 구축했다
- •정확도 유지와 파라미터 수 감소 사이의 균형을 맞추는 데 집중했다
- •효율적인 1D-CNN 기반의 엔드투엔드 신경망 분류 모델을 최종 선택했다
데이터 전처리 및 피처 엔지니어링
- •입술 랜드마크 추가가 정확도 향상에 핵심적인 역할을 했다
- •프레임 간 좌표 차이인 Motion Feature를 통해 움직임 정보를 보강했다
- •17번 랜드마크(코)를 원점으로 하는 상대 좌표 정규화를 적용했다
가변 길이 입력 처리와 마스킹
- •패딩 대신 가변 길이 입력을 지원하여 추론 시간을 단축했다
- •1D-CNN에 Causal 패딩을 적용하여 학습과 추론의 데이터 일관성을 확보했다
- •TensorFlow의 마스킹 레이어를 활용해 패딩된 부분을 계산에서 제외했다
모델 아키텍처 상세: 1D-CNN + Transformer
- •1D-CNN 블록 3개와 Transformer 블록 1개의 조합을 반복 사용했다
- •Depthwise Convolution과 ECA 모듈로 연산량과 파라미터를 최적화했다
- •Global Average Pooling 단계에서도 마스킹을 적용해 유효 프레임만 평균을 냈다
학습 방법 및 규제 기법
- •AWP와 높은 Dropout 비율을 통해 모델의 일반화 성능을 높였다
- •RAdam과 Lookahead 옵티마이저 조합으로 학습 안정성을 확보했다
- •Label Smoothing 없이 Plain Cross Entropy Loss를 사용했을 때 결과가 더 좋았다
경량화 모델 성능 및 결론
- •3.76MB의 초경량 모델로 실시간 모바일 추론이 가능하다
- •단일 모델만으로도 프라이빗 리더보드 최상위권 성적을 거두었다
- •복잡한 GNN보다 잘 설계된 1D-CNN 아키텍처가 더 효율적임을 입증했다
실무 Takeaway
- 시계열 랜드마크 데이터 처리 시 1D-CNN으로 지역적 특징을 추출하고 Transformer로 전역적 맥락을 보강하는 하이브리드 구조가 매우 효과적이다.
- 모바일 환경을 위한 경량 모델 설계 시 Depthwise Convolution과 ECA(Efficient Channel Attention)를 조합하여 파라미터 수를 획기적으로 줄이면서 성능을 유지할 수 있다.
- 가변 길이 시퀀스 데이터를 다룰 때 패딩 대신 Causal 패딩과 마스킹 기법을 적절히 구현하면 학습과 추론 사이의 일관성을 유지하며 성능을 최적화할 수 있다.
- 강력한 규제 기법인 AWP(Adversarial Weight Perturbation)와 Stochastic Depth는 데이터셋이 작거나 노이즈가 많은 환경에서 모델의 강건성을 확보하는 데 필수적이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.