핵심 요약
위성 이미지의 변화를 분석하는 능력과 미래의 모습을 예측하는 능력을 하나의 AI 모델로 통합했다. 이를 통해 20억 개의 파라미터만으로도 120배 더 큰 모델보다 정확하게 지표면의 변화를 이해하고, 실제와 구분이 어려운 수준의 미래 위성 영상을 생성할 수 있게 됐다.
왜 중요한가
위성 이미지의 변화를 분석하는 능력과 미래의 모습을 예측하는 능력을 하나의 AI 모델로 통합했다. 이를 통해 20억 개의 파라미터만으로도 120배 더 큰 모델보다 정확하게 지표면의 변화를 이해하고, 실제와 구분이 어려운 수준의 미래 위성 영상을 생성할 수 있게 됐다.
핵심 기여
최초의 통합 원격 탐사 세계 모델 RS-WorldModel 제안
시공간적 변화 이해(ST-CQA)와 텍스트 기반 미래 장면 예측(TFSF)을 단일 자기회귀 프레임워크 내에서 동시에 처리하는 아키텍처를 구축했다.
110만 샘플 규모의 대규모 데이터셋 RSWBench-1.1M 구축
fMoW 데이터를 기반으로 지리 메타데이터와 세밀한 언어 주석을 포함한 110만 개의 고해상도 샘플을 확보하여 모델의 학습과 평가를 지원한다.
3단계 학습 패러다임(GAGP, SIT, VRO) 설계
지리 인식 사전 학습, 시너지 지시어 튜닝, 검증 가능한 강화 최적화를 통해 물리적 개연성과 텍스트 충실도를 단계적으로 확보했다.
소규모 파라미터로 달성한 SOTA 성능
2B 파라미터 규모로 120배 큰 모델들을 변화 추론에서 능가했으며, 미래 장면 생성에서 FID 43.13을 기록하며 기존 오픈소스 및 폐쇄형 모델을 모두 앞질렀다.
핵심 아이디어 이해하기
원격 탐사(Remote Sensing) 분야에서 위성 이미지의 변화를 설명하는 '이해'와 미래를 그리는 '예측'은 본질적으로 지표면의 물리적 변화 법칙이라는 공통된 지식을 공유한다. 하지만 기존 모델들은 이 두 작업을 별개의 아키텍처로 처리하여, 변화의 원인을 이해하는 지식이 미래를 예측하는 데 활용되지 못하는 한계가 있었다. Transformer의 Self-Attention 메커니즘이 이미지 내의 공간적 관계를 파악하듯, 위성 데이터에서는 시간의 흐름에 따른 지리적 맥락(Geospatial Context)을 파악하는 것이 핵심이다. RS-WorldModel은 이미지를 이산적인 Visual Token으로 변환하고 이를 텍스트 토큰과 함께 처리하는 통합 자기회귀(Autoregressive) 구조를 채택한다. 모델은 현재 이미지와 지리적 좌표, 태양 고도 등의 메타데이터를 입력받아 다음 시각 토큰을 예측하는 과정을 통해 '지표면이 어떻게 변하는지'에 대한 물리적 세계 모델을 구축한다. 이는 단순한 픽셀 통계 학습을 넘어, 특정 위치와 시간대에 발생할 수 있는 타당한 변화를 추론하는 능력을 부여한다. 이러한 통합 접근 방식은 모델이 '무엇이 변했는가'를 설명하는 과정에서 얻은 세밀한 특징들을 '어떻게 변할 것인가'를 생성하는 데 직접적으로 투사할 수 있게 한다. 결과적으로 2B라는 상대적으로 작은 파라미터 규모임에도 불구하고, 지리적 맥락을 무시하고 거대 언어 모델의 힘에만 의존하는 100B급 모델들보다 훨씬 더 정교하고 물리적으로 타당한 결과를 생성하게 된다.
방법론
MoVQGAN 토크나이저를 사용하여 256x256 해상도의 위성 이미지를 1,024개의 시각 토큰으로 변환한다. 텍스트와 시각 토큰을 동일한 잠재 공간에서 처리하는 단일 자기회귀 모델 구조를 채택하여 이해와 생성 작업을 통합한다. GAGP(Geo-Aware Generative Pre-training) 단계에서는 텍스트 없이 지리 메타데이터 조건만으로 미래 이미지를 예측하도록 학습한다. [현재 이미지 I_cur와 메타데이터 m_t, m_t'를 입력으로] → [Transformer의 자기회귀 연산을 수행해] → [미래 이미지의 시각 토큰 z_t'를 얻고] → [이 값이 실제 미래 이미지와 일치하도록 학습하여 지리적 변화의 물리적 법칙을 내재화한다.] SIT(Synergistic Instruction Tuning) 단계에서는 이해(ST-CQA)와 생성(TFSF) 데이터를 혼합하여 파인튜닝한다. 두 작업이 서로의 정보를 보완하도록 유도하여 생성 제어력과 설명의 정확도를 동시에 높인다. VRO(Verifiable Reinforcement Optimization) 단계에서는 GRPO 알고리즘을 적용한다. [생성된 텍스트/이미지를 입력으로] → [LLM 판사 또는 코사인 유사도 기반 보상 계산을 수행해] → [최종 보상 값 r을 얻고] → [이 값을 최대화하는 방향으로 모델을 최적화하여 지리적 모순을 피하고 텍스트 지시를 정확히 따르도록 정렬한다.]
주요 결과
Spatiotemporal Change QA(ST-CQA) 벤치마크에서 RS-WorldModel(2B)은 ROUGE-L 26.35, S-BERT 90.45를 기록했다. 이는 120배 더 큰 Qwen3-VL-235B(ROUGE-L 20.22)를 포함한 모든 오픈소스 모델을 압도하는 수치다. Text-Guided Future Scene Forecasting(TFSF) 실험에서 FID 43.13을 달성하여 Gemini-2.5-Flash(FID 46.14) 및 기존 오픈소스 모델들(FID 70~90대)보다 뛰어난 생성 품질을 입증했다. Ablation Study 결과, 지리 메타데이터를 제외했을 때 FID가 50.28에서 53.72로 상승했다. 이는 위치 및 센서 정보가 물리적으로 타당한 위성 영상을 생성하는 데 필수적인 사전 지식임을 보여준다.
실무 활용
도시 계획, 재난 감시, 환경 변화 모니터링 등 정밀한 위성 이미지 분석과 시뮬레이션이 필요한 분야에 즉시 적용 가능하다. 적은 파라미터로도 높은 성능을 내어 효율적인 온프레미스 배포가 가능하다.
- 특정 지역의 계절 변화나 도시 개발에 따른 미래 위성 이미지 시뮬레이션
- 두 시점의 위성 이미지 비교를 통한 정밀한 지표면 변화 자동 분석 및 보고서 생성
- 태양 각도 및 기상 조건 변화에 따른 위성 센서 데이터의 물리적 보정 및 예측
- 재난 발생 전후 이미지를 바탕으로 한 피해 규모 예측 및 복구 시나리오 시각화
기술 상세
Qwen3-VL-2B-Instruct를 백본으로 사용하며, 비전 인코더와 멀티모달 프로젝터는 고정(frozen)한 채 언어 모델 파라미터만 학습한다. 8개의 NVIDIA A800 GPU에서 DeepSpeed ZeRO-3와 Flash Attention 2를 활용해 구현했다. 위성 이미지 특유의 수치 데이터를 자연어 지시어로 변환하는 'Metadata Translation' 기법을 적용했다. 예를 들어 태양 고도 수치를 "긴 그림자가 생기는 낮은 태양 각도"와 같은 서술형 문구로 변환하여 모델의 과적합을 방지하고 일반화 성능을 높였다. 강화학습 단계에서 사용된 GRPO(Group Relative Policy Optimization)는 별도의 가치 네트워크(Value Network) 없이 샘플 그룹 내 상대적 우위를 비교하여 정책을 업데이트한다. 이는 계산 효율성을 높이면서도 지리적 일관성을 강화하는 데 효과적이다. 보상 함수는 텍스트 충실도(sit)와 이미지 일관성(sir)을 결합한 r_TFSF = s_it + λ * s_ir 형태를 취한다. λ=0.2를 설정하여 텍스트 지시 준수와 원본 이미지와의 공간적 연속성 사이의 균형을 맞췄다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료