핵심 요약
로봇이나 AR 기기가 사용자의 시선(1인칭)과 외부 카메라(3인칭) 사이에서 동일한 물체를 정확히 식별하는 것은 매우 어려운 과제이다. 이 논문은 별도의 정답지 없이도 시점 간의 차이를 스스로 학습하고, 추론 단계에서 실시간으로 성능을 최적화하는 방법을 제시하여 로봇 제어와 인간-로봇 상호작용의 정확도를 높인다.
왜 중요한가
로봇이나 AR 기기가 사용자의 시선(1인칭)과 외부 카메라(3인칭) 사이에서 동일한 물체를 정확히 식별하는 것은 매우 어려운 과제이다. 이 논문은 별도의 정답지 없이도 시점 간의 차이를 스스로 학습하고, 추론 단계에서 실시간으로 성능을 최적화하는 방법을 제시하여 로봇 제어와 인간-로봇 상호작용의 정확도를 높인다.
핵심 기여
조건부 이진 세그멘테이션 프레임워크
소스 이미지의 객체 마스크를 잠재 표현으로 인코딩하여 타겟 영상 내 해당 객체의 위치를 찾는 간단하고 효율적인 구조를 구축했다.
사이클 일관성 학습 목적 함수
예측된 타겟 마스크를 다시 소스 뷰로 투영해 원래 마스크를 재구성하도록 강제함으로써, 정답 레이블 없이도 시점 불변의 특징을 학습하는 자가 지도 신호를 생성했다.
추론 시점 학습(TTT) 전략 도입
추론 단계에서 사이클 일관성 손실을 활용해 모델을 실시간으로 미세 조정함으로써, 학습 데이터에 없던 새로운 환경이나 도메인 변화에 유연하게 적응하도록 했다.
Ego-Exo4D 및 HANDAL-X 벤치마크 성능 입증
복잡한 1인칭-3인칭 시점 전환 시나리오에서 기존 SOTA 모델인 O-MaMa 및 ObjectRelator를 상회하는 성능을 기록했다.
핵심 아이디어 이해하기
시각적 대응(Visual Correspondence)은 서로 다른 각도에서 찍힌 두 영상 속 물체가 같은 것인지 판단하는 기술이다. 기존에는 두 시점에서 공통으로 보이는 영역이 많아야 했으나, 1인칭(에고)과 3인칭(엑소) 시점은 각도, 조명, 배경이 너무 달라 단순한 특징 매칭으로는 한계가 명확하다.
이 문제를 해결하기 위해 '순환(Cycle)' 개념을 도입했다. 소스 뷰의 객체를 타겟 뷰에서 찾고, 다시 그 찾은 결과를 바탕으로 소스 뷰의 원래 위치를 맞추게 하는 방식이다. 만약 모델이 물체를 잘못 찾았다면 원래 위치로 정확히 돌아올 수 없으므로, 이 오차를 줄이는 과정에서 시점 차이에 상관없는 물체 본연의 특징(Embedding)을 학습하게 된다.
특히 추론 시점 학습(Test-Time Training)을 통해, 학습 데이터에 없던 새로운 환경에서도 모델이 스스로 적응한다. 이는 마치 사람이 낯선 장소에서 물건을 찾을 때 몇 번의 시각적 보정을 거치며 적응하는 것과 유사한 원리로 작동하며, 정답지가 없는 실제 상황에서도 성능을 지속적으로 향상시킨다.
방법론
전체 아키텍처는 소스 특징 추출기, Transformer 인코더, 멀티태스크 디코더로 구성된다. DINOv3를 백본으로 사용하여 풍부한 시각적 표현을 얻고, 소스 마스크 정보를 CDT(Conditioning Token)로 변환해 Transformer에 주입한다. CDT는 소스 이미지 특징 맵 와 마스크 의 가중 평균으로 계산되며, 이는 특정 객체의 정보를 압축적으로 담고 있다.
사이클 일관성 메커니즘은 를 최소화한다. 소스 마스크 를 입력으로 타겟 마스크 를 예측하고, 이를 다시 소스 뷰로 투영해 재구성된 마스크 를 생성한다. 두 값의 차이를 Binary Cross-Entropy로 계산하여 모델이 시점 간의 양방향 매핑을 일관되게 수행하도록 유도한다. [소스 마스크 → 타겟 예측 → 소스 재구성 → 원래 마스크와의 오차 계산 순으로 학습 신호 발생]
추론 단계에서는 정답 없이도 을 계산할 수 있다는 점을 활용해 TTT를 수행한다. 각 테스트 이미지 쌍에 대해 Transformer의 마지막 몇 개 레이어를 수 차례 업데이트하여 특정 시점 차이에 최적화한다. 또한 CLS Head를 별도로 두어 타겟 뷰에서 객체의 가시성(Visibility)을 판별하는 이진 분류를 수행한다.
주요 결과
Ego-Exo4D 벤치마크에서 mIoU 44.57%를 기록하며 기존 최고 성능인 O-MaMa(43.32%)를 경신했다. 특히 Exo Query 설정에서 이전 모델들보다 IoU 기준 3.10% 이상의 성능 향상을 보이며 복잡한 환경에서의 강인함을 입증했다.
HANDAL-X 데이터셋의 제로샷 세그멘테이션 실험에서는 ObjectRelator 대비 36.0% 높은 성능을 기록했다. 이는 모델이 특정 데이터셋에 과적합되지 않고 다양한 시점 변화에 대응할 수 있는 일반화 능력을 갖추었음을 의미한다.
Ablation Study 결과, 사이클 일관성 손실()과 TTT를 모두 적용했을 때 성능이 가장 높았다. TTT만으로도 IoU가 약 1.5~3%p 향상되었으며, 특히 시점 차이가 극심한 시나리오에서 TTT의 보정 효과가 두드러지게 나타났다.
기술 상세
DINOv3-L(ConvNeXt 기반)을 소스 특징 추출기로, ViT 기반 DINOv3-L을 Transformer 인코더로 채택했다. 소스 이미지 특징 맵 에 정규화된 마스크 를 곱해 가중 평균을 구함으로써 객체 중심의 특징 를 추출한다.
Transformer 인코더의 입력은 이며, 여기서 는 를 선형 투영한 조건부 토큰이다. Cross-token Attention을 통해 타겟 이미지의 시각적 토큰들이 객체 정보에 적응하도록 설계되었다. 디코더는 Mask Head와 CLS Head로 나뉘며, Mask Head는 두 개의 컨볼루션 레이어를 사용하여 최종 이진 마스크를 생성한다.
학습은 2단계로 진행된다. 1단계(Linear Probing)에서는 백본을 고정하고 새로 추가된 모듈만 64K 반복 학습하며, 2단계에서 전체 파라미터를 640K 반복 미세 조정한다. TTT 시에는 효율성을 위해 Transformer의 마지막 개 레이어(Ego2Exo는 4개, Exo2Ego는 11개)만 업데이트하며, 이는 각 방향별 객체 크기 분포 차이를 반영한 설정이다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.