구글 수어 인식 경진대회 우승 솔루션: Hoyeol Sohn 팀의 1D-CNN과 Transformer 결합 모델 | AI Trends

구글 수어 인식 경진대회 우승 솔루션: Hoyeol Sohn 팀의 1D-CNN과 Transformer 결합 모델

MediaPipe 랜드마크 데이터를 활용하여 1D-CNN과 Transformer를 결합한 아키텍처로 실시간 수어 인식을 구현한 Kaggle 경진대회 우승 전략을 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

MediaPipe 랜드마크 데이터에 1D-CNN과 Transformer를 결합한 하이브리드 구조를 적용하고, 가변 길이 입력을 위한 마스킹 기법과 강력한 규제(Regularization)를 통해 높은 정확도와 실시간성을 동시에 확보했습니다.

배경

구글이 주최한 고립 수어 인식 경진대회(Google Isolated Sign Language Recognition)에서 우승한 Hoyeol Sohn 팀의 기술적 접근법을 다룹니다.

대상 독자

Kaggle 참여자, 컴퓨터 비전 개발자, 경량 모델 최적화 관심자

의미 / 영향

이 솔루션은 모바일 기기에서 실시간으로 작동 가능한 고성능 수어 인식 시스템의 표준 아키텍처를 제시했다. 특히 랜드마크 데이터만을 활용하여 개인정보 보호와 연산 효율성을 동시에 달성함으로써 실제 서비스 적용 가능성을 높였다. 1D-CNN과 Transformer의 효율적인 결합 방식은 다른 시계열 센서 데이터 분석 분야에도 즉시 응용 가능하다. 또한 TFLite 최적화 과정에서 보여준 마스킹 기법은 경량 딥러닝 모델 배포의 실무적 가이드라인을 제공한다.

챕터별 상세

00:00

배경 및 대회 개요

이 대회는 MediaPipe Holistic 모델에서 추출된 랜드마크 데이터를 사용하여 250개의 미국 수어(ASL) 단어를 분류하는 과제를 수행했다. 제출 모델은 모바일 기기에서의 실시간 추론을 위해 TensorFlow Lite(TFLite) 형식으로 제한되었다. 데이터는 손, 얼굴, 포즈의 XYZ 좌표로 구성된 랜드마크 형태이다.

01:29

모델 설계 전략

모델 선택, 데이터 전처리, 모델 최적화(압축), 규제 기법의 4가지 요소를 반복적으로 개선하는 워크플로우를 적용했다. 초기에는 효과적인 모델 아키텍처를 식별한 후 데이터 전처리 방식을 고도화했다. 정확도가 향상됨에 따라 모델의 강건성을 위해 더 많은 규제 기법을 도입하고 마지막으로 파라미터 수를 줄이는 모델 압축을 진행했다.

03:29

데이터 전처리 및 피처 엔지니어링

기본적으로 손의 랜드마크 XYZ 좌표를 사용했으며, 입술 랜드마크를 추가했을 때 정확도가 약 0.02 향상되었다. 눈과 코의 랜드마크도 추가하여 성능을 높였으나 포즈 랜드마크는 큰 도움이 되지 않았다. 프레임 간의 차이를 계산하는 Motion Feature(Lag 1, Lag 2)를 도입하여 동적인 움직임을 포착했다. 정규화는 코 위치에 해당하는 17번 랜드마크를 기준점으로 삼아 각 시퀀스를 표준화했다.

05:30

가변 길이 입력 처리와 마스킹

영상마다 프레임 수가 다르기 때문에 패딩(Padding)이나 보간(Interpolation) 대신 가변 길이를 직접 처리하는 방식을 택했다. 학습 시에는 최대 384프레임으로 패딩하지만, 추론 시에는 마스킹을 통해 실제 프레임만 계산하여 속도를 높였다. 1D-CNN 레이어에서 'causal' 패딩을 사용하여 미래 프레임 정보가 현재 계산에 영향을 주지 않도록 설계함으로써 학습과 추론 사이의 일관성을 유지했다.

07:19

모델 아키텍처 상세: 1D-CNN + Transformer

순수 1D-CNN만으로도 리더보드 0.80 수준의 높은 정확도를 달성했으나, 그 위에 Transformer 블록을 추가하여 성능을 더 개선했다. 전체 구조는 3개의 1D-CNN 블록과 1개의 Transformer 블록이 연결된 형태를 두 번 반복한다. 1D-CNN 블록은 MobileNet에서 제안된 Inverted Bottleneck 구조와 유사하며, Depthwise Convolution과 ECA(Efficient Channel Attention) 모듈을 사용하여 파라미터 효율성을 극대화했다.

12:10

학습 방법 및 규제 기법

모델을 처음부터 학습(Train from scratch)시켰으며, 과적합 방지를 위해 강력한 규제 기법을 적용했다. Stochastic Depth(Drop Path), 높은 비율의 Dropout(0.8), 그리고 가중치에 섭동을 주는 AWP(Adversarial Weight Perturbation)를 사용했다. 데이터 증강으로는 시간축 리샘플링, 랜덤 마스킹, 수평 뒤집기, 아핀 변환 등을 적용했다. Optimizer는 AdamW보다 성능이 좋았던 Rectified Adam(RAdam)과 Lookahead 조합을 선택했다.

15:59

경량화 모델 성능 및 결론

최종 제출된 단일 모델의 크기는 3.76MB로 매우 가벼우며, 영상당 약 15ms의 빠른 추론 속도를 기록했다. 앙상블 없이 단일 모델만으로도 프라이빗 리더보드 2위를 기록할 수 있는 성능을 보였다. GNN(Graph Neural Network)이나 지식 증류(Knowledge Distillation) 등 복잡한 기법도 시도했으나, 이 대회 데이터셋에서는 단순하고 견고한 1D-CNN 기반 접근이 가장 효과적이었다.

실무 Takeaway

시계열 랜드마크 데이터 처리 시 1D-CNN으로 지역적 특징을 추출하고 Transformer로 전역적 맥락을 보강하는 하이브리드 구조가 매우 효과적이다.
모바일 환경을 위한 경량 모델 설계 시 Depthwise Convolution과 ECA(Efficient Channel Attention)를 조합하여 파라미터 수를 획기적으로 줄이면서 성능을 유지할 수 있다.
가변 길이 시퀀스 데이터를 다룰 때 패딩 대신 Causal 패딩과 마스킹 기법을 적절히 구현하면 학습과 추론 사이의 일관성을 유지하며 성능을 최적화할 수 있다.
강력한 규제 기법인 AWP(Adversarial Weight Perturbation)와 Stochastic Depth는 데이터셋이 작거나 노이즈가 많은 환경에서 모델의 강건성을 확보하는 데 필수적이다.

언급된 리소스

DemoGoogle Isolated Sign Language Recognition Competition

문서MediaPipe Holistic Solution

논문ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.