핵심 요약
자율주행 시스템이 보행자의 안전을 확보하려면 단순히 위치를 아는 것을 넘어 보행자가 자전거나 짐과 어떻게 상호작용하는지 정확히 파악해야 한다. 이 논문은 LiDAR 데이터의 고질적 문제인 사람과 물체의 구분 모호성과 손발 데이터 부족 문제를 해결하여 복잡한 환경에서도 정밀한 포즈 추정을 가능하게 한다.
왜 중요한가
자율주행 시스템이 보행자의 안전을 확보하려면 단순히 위치를 아는 것을 넘어 보행자가 자전거나 짐과 어떻게 상호작용하는지 정확히 파악해야 한다. 이 논문은 LiDAR 데이터의 고질적 문제인 사람과 물체의 구분 모호성과 손발 데이터 부족 문제를 해결하여 복잡한 환경에서도 정밀한 포즈 추정을 가능하게 한다.
핵심 기여
HOIL 프레임워크 제안
LiDAR 포인트 클라우드에서 인간-사물 상호작용(HOI)을 명시적으로 모델링하여 3D 인간 포즈 추정 성능을 높이는 새로운 학습 프레임워크를 도입했다.
HOICL (상호작용 인식 대조 학습)
사람과 물체의 포인트가 뒤섞여 발생하는 공간적 모호성을 해결하기 위해 상호작용 및 접촉 영역의 특징 변별력을 높이는 대조 학습 기법을 설계했다.
CPPool (접촉 인식 파트 가이드 풀링)
데이터 양이 많은 몸통 포인트는 압축하고 데이터가 적지만 중요한 손과 발 같은 상호작용 부위의 정보는 보존하는 적응형 풀링 메커니즘을 개발했다.
CTRefine (접촉 기반 시계열 정제)
시간에 따른 접촉 정보를 활용하여 단일 프레임에서 발생한 포즈 추정 오류를 보정하는 선택적 모듈을 추가하여 시계열 일관성을 확보했다.
핵심 아이디어 이해하기
LiDAR는 점들의 집합으로 세상을 보는데 사람이 물체를 들고 있거나 자전거를 탈 때 사람의 점과 물체의 점이 너무 가까워 구분이 어렵다. 이는 딥러닝 모델이 특징을 추출할 때 두 영역의 정보를 혼동하게 만들어 결국 잘못된 관절 위치를 예측하게 하는 원인이 된다.
이 문제를 해결하기 위해 논문은 대조 학습을 활용한다. 비슷한 성격의 점들은 가깝게, 다른 성격의 점들은 멀게 배치하도록 학습하는 방식이다. 특히 사람과 물체가 맞닿는 접촉 지점에 집중하여 모델이 이 지점에서 사람의 특징과 물체의 특징을 명확히 구분하도록 강제한다.
또한 LiDAR 데이터는 거리에 따라 점의 밀도가 달라지는데 손이나 발처럼 크기가 작은 부위는 점의 개수가 매우 적어 학습 과정에서 무시되기 쉽다. 이를 해결하기 위해 중요도가 높은 부위의 점들을 우선적으로 남기는 지능형 필터링을 적용하여 정보 손실을 막고 정확한 포즈를 복원한다.
방법론
PTv3(Point Transformer V3)를 백본으로 사용하며 계층적 인코더-디코더 구조 내에서 포인트 특징을 추출한다. 기존의 단순 Max Pooling 대신 CPPool을 도입하여 인코딩 과정에서 상호작용 부위의 특징을 보존한다.
CPPool은 입력 포인트 특징으로부터 파트 확률과 접촉 점수를 예측한다. [포인트 특징 벡터 → MLP 연산 → Softmax/Sigmoid → 확률 및 점수 도출] 과정을 거쳐 각 포인트의 중요도를 계산하고 이를 가중치로 사용하여 가중 평균 풀링을 수행함으로써 정보 밀도가 낮은 손/발 부위의 특징이 소멸되지 않게 한다.
HOICL은 디코더의 최종 출력 특징을 정규화된 임베딩 공간으로 투영한다. [특징 벡터 → MLP 투영 → L2 Normalization → 임베딩 z] 과정을 거친 후 전역 분리, 빈번 상호작용 부위 정렬, 인간-사물 접촉 정렬의 세 가지 손실 함수를 결합하여 학습한다.
CTRefine 모듈은 예측된 3D 키포인트와 접촉 정보를 입력으로 받는다. [키포인트 좌표 → Self-Attention → 시계열 모델링 → Cross-Attention(키포인트+접촉 정보) → 잔차 연결 → 정제된 키포인트] 순으로 연산하여 프레임 간 일관성을 확보한다.
주요 결과
Waymo Open Dataset에서 MPJPE(평균 관절 위치 오차) 48.83mm를 기록하며 기존 SOTA 모델인 DAPT(51.59mm) 대비 약 5.3% 성능 향상을 달성했다. PCK-3(오차 30% 이내 비율)와 PCK-5(오차 50% 이내 비율)에서도 각각 98.51%, 99.14%로 최고 성능을 보였다.
SLOPER4D 데이터셋 실험에서는 MPJPE 22.68mm를 달성하여 DAPT(28.01mm)를 크게 앞질렀다. 특히 자전거 타기, 우산 쓰기 등 복잡한 상호작용이 포함된 시나리오에서 시각적으로 훨씬 자연스러운 포즈를 생성함이 확인됐다.
Ablation Study 결과 CPPool에서 접촉 정보를 추가했을 때 MPJPE가 50.78mm에서 48.83mm로 약 2.32% 개선되었으며 HOICL의 모든 구성 요소가 성능 향상에 기여함이 입증됐다.
실무 활용
자율주행 차량이 보행자의 의도를 파악하거나 복잡한 도심 환경에서 보행자 안전을 확보하는 데 즉시 활용 가능하다. LiDAR 전용 모델이므로 추가적인 카메라 센서 없이도 정밀한 포즈 추정이 가능하다.
- 자율주행 자동차의 보행자 행동 예측 및 충돌 방지 시스템
- 도심 내 퍼스널 모빌리티(자전거, 킥보드) 이용자 안전 모니터링
- 실외 환경에서의 인간-로봇 협업 및 상호작용 분석
기술 상세
아키텍처는 PTv3의 계층적 구조를 따르며 인코더의 각 단계에서 Grid Pooling을 CPPool로 대체하여 클래스 불균형 문제를 해결한다. 디코더에서는 Skip Connection을 통해 세부 정보를 복원하며 최종적으로 4개의 헤드를 통해 결과를 출력한다.
HOICL의 핵심은 계층적 대조 학습이다. 24개의 SMPL 파트와 1개의 사물 파트를 구분하는 전역 손실과 손/발 및 접촉 지점에 특화된 SupCon 손실을 결합하여 특징 공간의 변별력을 극대화한다.
CPPool은 학습 가능한 파라미터를 통해 풀링 가중치를 결정한다. [파트 확률과 고정 가중치 벡터의 내적 → 파트 점수] 연산에서 손/발에 높은 가중치를 부여하도록 설정되어 있어 다운샘플링 과정에서 이들 부위의 특징이 지배적으로 남도록 유도한다.
학습은 2단계로 진행된다. 먼저 5개의 대규모 HOI 데이터셋에서 합성 LiDAR 데이터를 생성하여 사전 학습을 수행한 후 실제 LiDAR 데이터셋인 Waymo와 SLOPER4D에서 파인튜닝을 진행한다.
한계점
LiDAR 센서의 특성상 거리가 멀어질수록 포인트 밀도가 급격히 낮아지는 문제는 여전히 존재하며 RGB 이미지와 같은 풍부한 시맨틱 정보가 부족하여 아주 미세한 포즈 추정에는 한계가 있을 수 있다. 또한 사전 학습 데이터셋에 포함되지 않은 새로운 유형의 상호작용에 대해서는 성능이 저하될 가능성이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료