TerraScope: 지구 관측을 위한 픽셀 기반 시각적 추론

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 Vision-Language Model(VLM)이 위성 이미지의 미세한 공간 정보를 처리하지 못하는 한계를 해결한다. 픽셀 수준의 마스킹과 텍스트 추론을 결합하여 면적 계산이나 거리 측정 같은 정밀한 지리 공간 분석을 가능하게 함으로써 지구 관측 분야의 자동화 수준을 높인다.

왜 중요한가

핵심 기여

TerraScope 프레임워크 개발

텍스트 추론 과정에 픽셀 단위 세그멘테이션 마스크를 삽입하여 정밀한 지리 공간 분석을 수행하는 통합 VLM 구조를 구축했다.

Terra-CoT 데이터셋 구축

추론 단계마다 픽셀 수준의 마스크가 포함된 100만 개의 샘플로 구성된 대규모 지리 공간 추론 데이터셋을 제작했다.

TerraScope-Bench 벤치마크 제안

면적 정량화, 거리 측정, 경계 관계 탐지 등 6가지 하위 작업을 통해 모델의 정밀 추론 능력과 마스크 품질을 동시에 평가하는 기준을 마련했다.

적응형 다중 모달리티 및 시계열 추론

광학(Optical) 및 SAR 데이터를 동적으로 융합하고, 여러 시점의 이미지를 통합하여 변화를 분석하는 기능을 구현했다.

핵심 아이디어 이해하기

기존의 VLM은 이미지 전체나 대략적인 바운딩 박스(Bounding Box) 수준의 정보에 의존하기 때문에, 지표면의 연속적인 분포나 미세한 경계를 다루는 지구 관측(EO) 작업에서 오차가 발생한다. Transformer의 Self-Attention 메커니즘이 모든 픽셀을 동일한 가중치로 처리하는 것과 달리, TerraScope는 추론 과정 중에 특정 영역을 명확히 짚어내는 '픽셀로 생각하기(thinking with pixels)' 방식을 채택한다.

모델은 추론 단계에서 [SEG]라는 특수 토큰을 생성하여 마스크 디코더를 트리거하고, 해당 시점에 가장 중요한 영역을 픽셀 단위로 분리한다. 이렇게 분리된 픽셀 영역의 시각적 특징(Visual Features)만을 다시 언어 모델의 입력으로 주입함으로써, 모델이 추상적인 텍스트 정보가 아닌 실제 픽셀 데이터에 근거하여 수치적 결론을 내리도록 유도한다.

결과적으로 이는 모델이 단순히 '나무가 많다'고 말하는 수준을 넘어, '이 영역의 픽셀 수를 세어보니 전체의 13%가 물이다'와 같이 검증 가능한 논리적 근거를 제시할 수 있게 만든다.

방법론

TerraScope는 InternVL3를 베이스 모델로 사용하며, 텍스트 디코더가 [SEG] 토큰을 생성할 때 SAM-2 기반의 마스크 디코더가 활성화되는 구조를 갖는다. [SEG] 토큰의 히든 스테이트(Hidden State)를 입력으로 받아 마스크 디코더가 세그멘테이션 마스크 $m_i$ 를 생성하면, 이를 토큰 그리드 해상도에 맞춰 정렬한다.

마스크 영역 내의 시각적 토큰 추출 과정에서는 [마스크 $m_i$ 와 시각 토큰 그리드를 입력으로] -> [마스크가 50% 이상 덮는 영역의 토큰들을 선택하여] -> [1D 시퀀스 $v_i$ 를 얻고] -> [이 값을 LLM의 다음 추론 단계에 주입하여 시각적 근거로 활용한다].

다중 모달리티 융합을 위해 Text-guided Cross-Attention을 사용한다. [질문 임베딩 $q$ 와 광학/SAR 시각 토큰 $v^ ext{opt}, v^ ext{SAR}$ 을 입력으로] -> [ $ext{Softmax}(v^ ext{opt} q^ op / ext{sqrt}(D))$ 연산을 통해 관련성 점수 $eta_j^ ext{opt}$ 를 계산하여] -> [각 위치에서 점수가 더 높은 모달리티의 토큰을 선택하고] -> [구름 등으로 가려진 광학 데이터 대신 SAR 데이터를 적응적으로 활용한다].

학습은 2단계로 진행된다. 1단계에서는 200만 개의 참조 표현 세그멘테이션(RES) 샘플을 사용하여 마스크 디코더의 기초 능력을 학습시킨다. 2단계에서는 Terra-CoT 데이터셋을 사용하여 텍스트 추론과 픽셀 마스킹을 동시에 최적화하는 Instruction Tuning을 수행한다.

주요 결과

TerraScope-Bench 실험 결과, TerraScope는 평균 68.9%의 정확도를 기록하여 GPT-4o(38.7%)와 Qwen3-VL(43.3%) 같은 강력한 범용 모델을 압도했다. 특히 면적 정량화(Absolute Area Quantification)와 거리 측정(Distance Measurement) 등 정밀한 수치 계산이 필요한 작업에서 기존 모델 대비 2배 이상의 성능 향상을 보였다.

Landsat30AU 벤치마크에서도 73.9%의 성능을 달성하며 일반화 능력을 입증했다. 이는 기존의 지구 관측 특화 모델인 EarthDial(36.3%)이나 EarthMind(42.1%)보다 월등히 높은 수치이다.

Ablation Study를 통해 픽셀 단위 마스킹의 효과가 증명됐다. 텍스트로만 추론하는 방식(Textual CoT)은 58.7%에 그친 반면, 픽셀 마스크를 결합한 TerraScope는 68.9%를 기록하여 시각적 근거 주입이 추론의 정확성을 직접적으로 높임을 확인했다.

기술 상세

TerraScope 아키텍처는 InternVL3-8B를 백본으로 하며, SAM-2의 이미지 인코더와 마스크 디코더를 통합한 형태이다. 텍스트 디코더의 마지막 레이어에서 [SEG] 토큰의 출력을 공간 프롬프트로 사용하여 마스크 디코더에 전달함으로써 LLM이 직접 세그멘테이션을 제어할 수 있게 설계됐다.

구현 측면에서 마스크 영역의 토큰 수가 너무 많아지는 것을 방지하기 위해 최대 임계값 $\lambda=128$ 을 설정하고, 이를 초과할 경우 공간 균등 샘플링(Spatial Uniform Sampling)을 적용하여 연산 효율성을 유지한다. 이는 KV Cache 업데이트 시 컨텍스트 길이를 최적화하는 데 기여한다.

학습 시에는 언어 모델링 손실(LLM Loss)과 세그멘테이션 손실(Dice Loss 및 Cross-Entropy)을 0.5 비중으로 결합한 통합 손실 함수를 사용한다. 이를 통해 모델이 텍스트의 논리적 흐름과 픽셀의 정확한 위치를 동시에 학습하도록 유도한다.

한계점

현재 RGB 밴드만 입력으로 처리하므로 근적외선(NIR)이나 레드엣지(Red-edge) 등 다분광 센서의 정보를 충분히 활용하지 못한다. 또한 세그멘테이션 단계에서 오류가 발생할 경우 이후의 추론 과정으로 오차가 전파되는 Error Propagation 문제가 존재하며, 현재는 두 시점 사이의 변화만 분석 가능한 수준이다.

실무 활용

위성 및 항공 이미지 분석이 필요한 다양한 산업 분야에서 정밀한 자동 분석 도구로 활용 가능하다.

재난 상황에서 파괴된 건물의 수와 도로의 피해 면적을 픽셀 단위로 정밀 산출
특정 지역의 산림 면적 변화나 농작물 재배 면적을 시계열로 추적 및 정량화
구름이 많은 지역에서 광학 이미지와 SAR 데이터를 융합하여 끊김 없는 지표면 모니터링
도시 확장 계획 수립 시 건물 간 거리나 녹지 비율을 자동으로 측정하여 보고서 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)Geospatial Reasoning(지리 공간 추론)Pixel-Grounded(픽셀 기반)Earth Observation(지구 관측)Chain-of-Thought(추론 연쇄)