이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
TL;DR
ResNet-18과 CBAM을 활용해 저사양 환경에서도 구동 가능한 고성능 시선 추적 파이프라인을 구축하고 도메인 갭 극복 방안을 모색함.
배경
학부 졸업 프로젝트로 키보드나 마우스 사용이 어려운 중증 언어 및 운동 장애(SSMI) 아동을 위해 시선 추적 시스템을 개발하고, 기술적 선택 사항과 성능에 대해 커뮤니티의 피드백을 요청했다.
의미 / 영향
이 프로젝트는 고가의 장비 없이도 일반적인 노트북 CPU에서 딥러닝 기반 보조 공학 도구를 구현할 수 있음을 보여준다. 다만 학습 데이터와 실제 사용자 간의 도메인 차이를 극복하는 것이 의료용 AI 서비스의 핵심 과제임을 시사한다.
커뮤니티 반응
작성자가 구체적인 기술 스택과 수치를 공개하며 실무적인 비판을 요청했으며, 특히 도메인 갭과 XAI 방법론에 대한 심도 있는 논의를 기대하고 있다.
합의점 vs 논쟁점
합의점
- ResNet-18 기반의 경량 모델이 실시간 추론에 적합하다는 점
- ONNX를 활용한 CPU 최적화가 모바일 및 저사양 기기 배포에 효과적이라는 점
논쟁점
- 코사인 유사도 손실 함수가 특정 극단적 각도에서 arccos 손실 대비 안정적인지 여부
- 일반인 데이터셋으로 학습된 모델의 장애 아동 대상 일반화 가능성
실용적 조언
- CPU 환경에서 실시간 추론이 필요할 경우 모델을 ONNX로 내보내어 최적화할 것
- 시계열 데이터의 떨림 현상을 줄이기 위해 One Euro Filter와 이동 평균을 조합하여 사용할 것
섹션별 상세
모델 아키텍처 및 성능에 대해 ResNet-18 백본에 각 레이어 블록 뒤 CBAM(Convolutional Block Attention Module)을 추가하여 시선 추적의 정확도를 높였다. 입력 이미지는 112x112 크기의 헤드 크롭을 사용하며, M1 MacBook Air CPU 환경에서 ONNX로 실행 시 약 101 FPS(9.88ms)의 추론 속도를 달성했다. Gaze360 데이터셋 기준 검증 오차 4.666도, 테스트 오차 4.662도로 과적합 없이 안정적인 성능을 보였다.
손실 함수 및 최적화 전략으로 3D 단위 시선 벡터에 대해 arccos 기반의 각도 손실 대신 코사인 유사도(Cosine Similarity)를 채택했다. 이는 ±40도 범위 내의 시선 이동을 처리하는 데 있어 계산 효율성을 제공하며 실제 구현 시 안정적인 수렴을 돕는다. 작성자는 이 방식이 특정 각도 범위에서 불안정성을 유발할 가능성이 있는지에 대해 전문가의 의견을 구하고 있다.
도메인 갭 및 데이터셋 한계에 대해 일반 성인 위주의 Gaze360 데이터셋으로 학습된 모델이 실제 타겟 사용자인 SSMI 아동에게 적용될 때의 성능 저하를 우려했다. 특히 사시(Strabismus)나 비정형적인 머리 자세를 가진 아동의 경우 기존 데이터셋과의 분포 차이가 커서 정확도가 떨어질 위험이 크다. 이를 해결하기 위한 데이터 증강이나 전이 학습 전략의 필요성이 논의의 핵심이다.
설명 가능한 AI(XAI) 구현을 위해 치료사 등 비전문가 사용자를 겨냥하여 폐색 민감도(Occlusion Sensitivity) 분석을 선택했다. 112x112 헤드 크롭 이미지에 패치 마스킹을 적용하여 모델이 시선의 어느 부위에 집중하는지 시각화하며, 이는 ONNX 런타임에서 그래디언트 접근이 어려운 기술적 제약을 우회하는 동시에 직관적인 결과를 제공한다.
언급된 도구
ONNX Runtime추천
CPU 환경에서의 고속 모델 추론
One Euro Filter추천
시선 데이터 스무딩 및 노이즈 제거
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 04. 06.수집 2026. 04. 06.출처 타입 REDDIT
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.