1인칭 시점 손 키포인트 검출을 통한 비접촉 터치 디스플레이 구현

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

1인칭 시점(Egocentric) 비전을 활용하여 일반 디스플레이를 비접촉 인터페이스로 변환하는 시스템을 구축한다. Roboflow의 InferencePipeline으로 비디오 스트림을 관리하고, RF-DETR Nano로 화면 위치를, MediaPipe로 21개의 손 키포인트를 실시간 감지한다. 엄지와 검지 사이의 거리를 계산해 핀치 제스처를 인식하고 이를 OS의 줌 이벤트로 변환하여 물리적 터치 없이 화면을 제어한다. 이 방식은 스마트 글래스 등 웨어러블 기기에서 활용 가능한 효율적인 상호작용 아키텍처를 제시한다.

배경

Python 프로그래밍, OpenCV 기초 지식, 컴퓨터 비전 파이프라인에 대한 이해

대상 독자

실시간 컴퓨터 비전 애플리케이션 개발자 및 HCI 연구자

의미 / 영향

고가의 하드웨어 없이도 웹캠과 오픈소스 모델만으로 정교한 비접촉 인터페이스를 구현할 수 있음을 보여주며, 향후 스마트 글래스 생태계의 핵심 입력 방식이 될 가능성을 제시한다.

섹션별 상세

Roboflow Inference 라이브러리의 InferencePipeline을 사용하여 비디오 스트림 관리와 스레딩 처리를 자동화한다. 프레임 캡처와 모델 추론 루프를 분리하여 지연 시간을 최소화하며, 개발자는 on_prediction 콜백 내에서 핵심 로직 구현에만 집중할 수 있는 구조를 제공한다.

python

from inference import InferencePipeline

pipeline = InferencePipeline.init_with_custom_logic(
    video_reference=settings.camera,
    on_video_frame=processor.infer,
    on_prediction=processor.on_prediction,
)

Roboflow InferencePipeline을 사용하여 비디오 스트림과 추론 콜백을 설정하는 코드

MediaPipe Hand Landmarker를 통해 CPU에서도 실시간으로 21개의 손 키포인트를 추출한다. 엄지 끝(4번)과 검지 끝(8번) 좌표 간의 유클리드 거리를 측정하여 핀치 제스처 여부를 판단하며, 비동기 라이브 스트림 모드를 적용해 전체 시스템의 반응성을 유지한다.

python

options = HandLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.LIVE_STREAM,
    num_hands=1,
    result_callback=result_callback,
)
landmarker = HandLandmarker.create_from_options(options)

MediaPipe Hand Landmarker를 실시간 스트림 모드로 설정하는 코드

1인칭 시점에서 감지된 손의 궤적과 키포인트 시각화 이미지 — Screenshot카메라가 사용자의 시점에서 손의 움직임을 추적하고 21개의 랜드마크를 실시간으로 시각화하는 모습을 보여준다. 이는 시스템이 손의 위치와 제스처를 어떻게 해석하는지 직관적으로 설명한다.

MediaPipe에서 정의한 21개의 손 키포인트 인덱스 다이어그램 — Diagram손목부터 각 손가락 마디 및 끝점까지 할당된 고유 번호를 보여준다. 본문에서 핀치 제스처를 위해 사용하는 4번(엄지 끝)과 8번(검지 끝) 위치를 명확히 식별할 수 있게 돕는다.

RF-DETR Nano 모델로 노트북 화면을 감지하고 상호작용의 기준점(Anchor)을 설정한다. 화면 좌측 상단 모서리를 원점으로 삼아 손가락 좌표를 상대적으로 변환함으로써, 사용자가 화면의 특정 영역 위에서 제스처를 수행할 때 해당 위치에 맞는 조작이 가능하도록 매핑한다.

python

model = RFDETRSegNano()
model.optimize_for_inference(dtype=torch.float16)
model.predict(frame.image, threshold=threshold)

RF-DETR Nano 모델을 로드하고 추론을 실행하는 코드

제스처 매니저는 인식된 핀치 상태 변화를 감지하고 pynput 라이브러리를 통해 실제 OS 키보드 이벤트를 발생시킨다. 핀치 거리가 임계값보다 작아지면 줌 인, 커지면 줌 아웃 명령을 실행하여 브라우저나 문서의 확대/축소를 물리적 접촉 없이 수행한다.

python

def on_prediction(self, predictions: Any, video_frame: VideoFrame) -> None:
    hand_result = predictions[0]
    laptop_detections = predictions[1]
    corner = self._laptop_detector.get_corner(laptop_detections)
    if hand_result is not None and hand_result.hand_landmarks:
        for hand_landmarks in hand_result.hand_landmarks:
            self._gesture_manager.detect_and_execute(hand_landmarks, corner)

추론 결과를 받아 손 랜드마크와 화면 위치를 기반으로 제스처를 실행하는 콜백 함수

현재 구현체는 조명 변화에 민감하고 제스처 종류가 제한적이라는 한계가 있으나, 향후 투영 변환(Projective Transform)을 도입해 카메라 각도 변화에 대응하거나 상태 머신을 추가해 다양한 명령을 지원하도록 확장할 수 있다.

실무 Takeaway

InferencePipeline을 활용하면 복잡한 멀티스레딩 코드 없이도 여러 모델을 결합한 실시간 컴퓨터 비전 파이프라인을 구축할 수 있다.
단순한 손 위치 추출을 넘어 RF-DETR로 상호작용 표면을 먼저 감지하고 기준점을 잡아야 실제 애플리케이션 제어에 필요한 상대 좌표를 얻을 수 있다.
MediaPipe의 비동기 라이브 스트림 모드를 적용하여 프레임 드랍 없이 부드러운 제스처 인식을 구현하는 것이 실시간 인터페이스의 핵심이다.

언급된 리소스

GitHubGitHub Repository

1인칭 시점 손 키포인트 검출을 통한 비접촉 터치 디스플레이 구현

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드