핵심 요약
자율 주행 시스템에서 여러 대의 카메라를 사용할 때 발생하는 카메라 간 깊이 정보의 불일치 문제를 해결했습니다. 기존의 복잡한 3D 연산 대신 원통형 좌표계를 활용한 효율적인 어텐션 메커니즘을 통해 연산 비용을 낮추면서도 높은 정확도와 일관성을 동시에 확보했습니다.
왜 중요한가
자율 주행 시스템에서 여러 대의 카메라를 사용할 때 발생하는 카메라 간 깊이 정보의 불일치 문제를 해결했습니다. 기존의 복잡한 3D 연산 대신 원통형 좌표계를 활용한 효율적인 어텐션 메커니즘을 통해 연산 비용을 낮추면서도 높은 정확도와 일관성을 동시에 확보했습니다.
핵심 기여
원통형 공간 어텐션 메커니즘
학습되지 않은 기하학적 가중치를 활용하여 서라운드 카메라 시스템의 수용 영역을 확장하고 카메라 간 특징 정보를 효과적으로 융합하는 Spatial Attention 기법을 도입했다.
공유 원통형 표현 방식
모든 카메라의 이미지 특징을 하나의 공유된 단위 원통(Unit Cylinder)에 투영하여 카메라 간의 기하학적 관계를 명시적으로 모델링하고 일관된 이웃 관계를 형성했다.
새로운 깊이 일관성 평가지표 제안
다중 뷰 환경에서 깊이 추정의 품질을 정량적으로 평가하기 위해 중첩 영역 내 대응점들의 유클리드 거리를 측정하는 Depth Consistency 지표를 새롭게 정의했다.
핵심 아이디어 이해하기
자율 주행 차량에 장착된 여러 대의 카메라는 서로 다른 각도를 바라보지만, 인접한 카메라들은 일부 영역을 공유한다. 기존 방식은 각 카메라 이미지를 독립적으로 처리한 뒤 나중에 합치려다 보니, 동일한 물체라도 카메라마다 계산된 깊이 값이 달라 3D 복원 시 물체가 겹쳐 보이거나 어긋나는 현상이 발생했다.
이 문제를 해결하기 위해 모든 카메라가 바라보는 세상을 하나의 거대한 원통형 스크린에 펼쳐놓는 방식을 사용한다. 각 카메라에서 추출된 특징(Embedding)들을 이 원통 좌표계로 옮기면, 서로 다른 카메라에서 찍힌 동일한 지점들이 원통 위에서 서로 가까운 위치에 놓이게 된다.
이후 Attention Mechanism을 적용하여 원통 위에서 가까운 거리에 있는 특징들끼리 정보를 주고받게 한다. 이때 복잡한 학습 과정 없이 기하학적 거리(Geodesic Distance)에 기반한 가중치를 사용하여, 물리적으로 가까운 지점의 정보가 자연스럽게 섞이도록 유도함으로써 전체적인 깊이 정보의 일관성을 확보한다.
관련 Figure

하나의 카메라 뷰에 있는 특정 지점(화살표)이 자기 자신뿐만 아니라 인접한 카메라 뷰의 대응 영역에도 강하게 반응(빨간색)하는 것을 보여주며, 카메라 간 특징 공유가 실제로 일어남을 확인시켜준다.
특정 쿼리 토큰에 대한 어텐션 맵 시각화
방법론
전체 시스템은 Encoder-Decoder 구조를 따르며, 먼저 각 카메라 이미지로부터 다중 스케일 특징 맵을 추출한다. 1차 추론을 통해 예비 깊이 맵을 생성한 후, 이를 바탕으로 3D 점들을 재구성하여 공유 단위 원통(Unit Cylinder) 표면에 투영한다. [2D 픽셀 좌표와 예비 깊이값 입력] → [카메라 파라미터를 이용한 3D 역투영 및 원통 좌표 변환] → [원통형 위치 맵 생성] → [공통 좌표계에서의 특징 정렬].
핵심인 Spatial Attention은 원통 좌표계에서의 측지선 거리(Geodesic Distance)를 기반으로 작동한다. 2D 가우시안 커널을 사용하여 거리가 가까울수록 높은 가중치를 부여하며, 연산 효율을 위해 가장 낮은 해상도의 특징 맵에만 적용한다. [두 픽셀 간의 원통상 거리 계산] → [가우시안 지수 함수 연산] → [어텐션 가중치 산출] → [인접 카메라 특징 융합].
자가 지도 학습(Self-Supervision)을 위해 공간적, 시간적 광도 일관성(Photometric Consistency) 손실 함수를 결합하여 사용한다. 특히 인접 카메라 간의 중첩 영역을 활용하는 Spatial Loss와 전후 프레임을 활용하는 Temporal Loss를 통해 정답 라벨 없이도 미터법 단위의 절대 깊이를 학습한다.
관련 Figure

입력 이미지들이 인코더를 거쳐 특징 맵(Fs)으로 추출된 후, 원통형 투영(Cylindrical Projection)과 공간 어텐션(Spatial Attention)을 통해 카메라 간 정보를 교환하고 최종 깊이 맵을 생성하는 과정을 보여준다.
CylinderDepth 네트워크의 전체 구조도
주요 결과
DDAD 및 nuScenes 데이터셋에서 실험한 결과, 기존 SOTA 모델인 CVCDepth 및 SurroundDepth 대비 높은 정확도를 기록했다. 특히 nuScenes 데이터셋에서 Abs Rel 0.244를 달성하여 기존 방식들보다 우수한 성능을 보였다.
새롭게 제안된 Depth Consistency 지표 측정 결과, DDAD 데이터셋에서 5.68m, nuScenes에서 2.69m의 오차를 기록하며 타 모델 대비 카메라 간 깊이 일관성이 크게 향상되었음을 입증했다.
Ablation Study를 통해 모든 스케일에서 어텐션을 적용하는 것보다 가장 낮은 해상도(Coarsest Scale)에서만 적용하는 것이 세부 구조 보존과 일관성 유지 측면에서 가장 효율적임을 확인했다.
관련 Figure

동일한 3D 지점이 서로 다른 카메라 뷰에서 어떻게 재구성되는지 보여준다. 별과 원으로 표시된 지점이 일치하는 본 모델이 기존 방식보다 훨씬 높은 일관성을 가짐을 시각적으로 증명한다.
본 모델과 기존 CVCDepth 모델의 다중 뷰 일관성 비교
기술 상세
아키텍처는 ResNet-18을 백본으로 사용하는 공유 인코더와 스킵 커넥션이 포함된 디코더로 구성된다. 특징 융합을 위한 Spatial Attention은 비학습형 가중치를 사용하므로 추론 시에도 기하학적 제약 조건을 엄격히 준수한다.
원통형 투영 방식은 구형(Spherical) 투영에서 발생하는 극점 왜곡 문제를 피하면서도 서라운드 뷰의 순환적 특성을 잘 반영한다. 3D 점 p를 원통 중심 c와 반지름 rc=1인 원통 표면의 p'으로 투영할 때, 방위각(Azimuth)과 높이(Height)를 좌표로 사용한다.
손실 함수는 시간적(Temporal), 공간적(Spatial), 시공간적(Spatio-Temporal) 광도 일관성 손실의 가중 합으로 정의된다. 여기에 에지 보존 평활화 손실(Edge-aware Smoothing Loss)과 밀집 깊이 일관성 손실(DCCL)을 추가하여 예측의 안정성을 높였다.
구현 측면에서 8개의 NVIDIA RTX 3060 GPU를 사용하여 학습되었으며, 추론 시 메모리 사용량은 0.7GB 수준으로 유지되어 임베디드 환경에서의 실행 가능성을 확보했다.
한계점
현재 설계에서는 가장 낮은 해상도의 특징 맵에만 어텐션을 적용하기 때문에 전역적인 일관성은 확보되지만, 아주 세밀한 픽셀 단위의 일관성에서는 다소 한계가 있을 수 있다. 또한 nuScenes와 같이 카메라 간 촬영 시점이 미세하게 다른 비동기 데이터셋에서는 성능 저하가 발생할 수 있어, 향후 궤적 기반의 연속적 모델링이 필요하다.
실무 활용
자율 주행 차량의 서라운드 뷰 시스템에서 다중 카메라 정보를 통합하여 정밀한 3D 환경 지도를 구축하는 데 즉시 활용 가능하다.
- 자율 주행 차량의 360도 주변 장애물 감지 및 거리 측정
- 다중 카메라 기반의 고정밀 로봇 국소화(Localization) 및 매핑
- 저비용 카메라 리그를 활용한 가상 현실(VR)용 3D 장면 복원
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.