핵심 요약
이미지 생성 모델이 단순히 그림을 그리는 능력을 넘어, 시각적 세계에 대한 깊은 이해도를 갖춘 범용 학습 도구임을 입증했다. 복잡한 전용 아키텍처 없이 가벼운 지시어 튜닝만으로도 세그멘테이션과 깊이 추정 등 다양한 시각 작업에서 전문 모델을 능가하는 성능을 보여주어 컴퓨터 비전의 패러다임 변화를 예고한다.
왜 중요한가
이미지 생성 모델이 단순히 그림을 그리는 능력을 넘어, 시각적 세계에 대한 깊은 이해도를 갖춘 범용 학습 도구임을 입증했다. 복잡한 전용 아키텍처 없이 가벼운 지시어 튜닝만으로도 세그멘테이션과 깊이 추정 등 다양한 시각 작업에서 전문 모델을 능가하는 성능을 보여주어 컴퓨터 비전의 패러다임 변화를 예고한다.
핵심 기여
Vision Banana 모델 제안
이미지 생성 모델인 Nano Banana Pro를 기반으로 가벼운 지시어 튜닝을 적용하여 생성과 이해가 모두 가능한 범용 시각 모델인 Vision Banana를 구축했다.
시각 작업을 이미지 생성으로 재정의
세그멘테이션 마크나 깊이 지도와 같은 시각 작업의 출력을 RGB 이미지 형식으로 매핑하여, 모든 인지 작업을 이미지 생성 문제로 통합 처리하는 인터페이스를 구현했다.
제로샷 성능의 비약적 향상
추가적인 전문 구조 없이도 Segment Anything Model 3(SAM 3)나 Depth Anything 시리즈와 같은 도메인 특화 모델을 제로샷 환경에서 능가하거나 대등한 성과를 거두었다.
생성 능력의 보존
시각 이해 작업을 위한 학습 후에도 원래의 고품질 이미지 생성 및 편집 능력을 희생하지 않고 유지함을 확인했다.
관련 Figure

모델이 하나의 입력을 받아 세그멘테이션, 깊이 추정 등 다양한 시각 출력을 생성하는 과정을 보여준다. 레이더 차트는 Vision Banana가 생성과 이해 모든 영역에서 기존 전문가 모델들을 압도하거나 대등함을 시각화한다.
Vision Banana의 전체 구조와 성능을 보여주는 다이어그램 및 레이더 차트이다.
핵심 아이디어 이해하기
기존의 시각 이해 모델은 주로 이미지의 특징을 추출하여 특정 클래스로 분류하거나 수치를 예측하는 판별적 학습에 의존했다. 하지만 이러한 방식은 모델이 이미지의 픽셀 간 복잡한 관계나 3차원적 구조를 깊이 있게 파악하는 데 한계가 있었다. 반면, 고해상도 이미지를 생성하는 모델은 픽셀 하나하나를 정교하게 배치해야 하므로 시각적 세계의 물리적 법칙과 의미론적 구조를 내면화할 수밖에 없다는 점에 주목했다.
Vision Banana는 이러한 생성 모델의 잠재력을 깨우기 위해 시각 작업의 결과물을 '그림'으로 그리도록 유도한다. 예를 들어 깊이 추정 작업의 경우, 먼 곳은 검은색, 가까운 곳은 흰색으로 칠해진 지도를 그리게 하는 식이다. 이는 LLM이 텍스트 생성을 통해 추론 능력을 발휘하는 것과 유사한 원리로, 시각적 출력을 RGB 이미지라는 통일된 언어로 표현하게 함으로써 모델이 가진 지식을 인지 작업으로 전이시킨다.
결과적으로 모델은 별도의 복잡한 수식 계산 없이도 시각적 맥락을 파악하여 정교한 마스크나 깊이 지도를 생성해낸다. 이는 생성 학습이 시각 지능의 근본적인 토대가 될 수 있음을 시사하며, 단일 모델이 수많은 시각 작업을 수행할 수 있는 범용성을 확보하게 한다.
방법론
Nano Banana Pro를 기반 모델로 사용하며, 원래의 생성 학습 데이터와 소량의 시각 작업 데이터를 혼합하여 지시어 튜닝을 수행한다. 시각 작업의 결과물은 모두 RGB 이미지로 인코딩된다. 세그멘테이션의 경우 특정 객체를 지정된 색상으로 칠하게 하며, 깊이 추정의 경우 0에서 무한대 사이의 거리 값을 [0, 1] 사이의 정규화된 값으로 변환한 뒤 이를 RGB 큐브의 경로를 따라 색상으로 매핑하는 전단사 함수를 적용한다.
깊이 값 d와 정규화된 거리 f 사이의 관계는 f(d, λ, c) = 1 - (1 - d/c)^(λ+1) 수식을 통해 계산된다. 여기서 λ=-3, c=10/3으로 설정하여 가까운 거리의 해상도를 높인다. 모델이 생성한 RGB 이미지는 다시 역함수를 통해 물리적 거리 값으로 복원되어 정량적 평가가 가능해진다. 이러한 방식은 모델 아키텍처를 변경하지 않고도 다양한 인지 작업을 수행할 수 있게 한다.
주요 결과
2D 이해 측면에서 Vision Banana는 Cityscapes 데이터셋에서 mIoU 0.699를 기록하여 SAM 3(0.652)를 앞섰으며, ReasonSeg에서도 gIoU 0.793으로 최고 성능을 보였다. 3D 이해에서는 4개 데이터셋 평균 δ1 정확도 0.929를 달성하여 기존 전문가 모델인 Depth Anything 3(0.918)를 능가했다.
특히 카메라 내부 파라미터(Intrinsics) 정보 없이도 정확한 절대 거리 추정이 가능함을 입증했다. 생성 능력 검증을 위한 GenAI-Bench 실험에서는 원본 모델 대비 53.5%의 승률을 기록하며 인지 작업 학습 후에도 생성 품질이 저하되지 않고 오히려 미세하게 개선되거나 유지됨을 확인했다.
기술 상세
Vision Banana는 생성 모델의 내부 표현(Internal Representation)이 이미 강력한 기하학적, 의미론적 정보를 포함하고 있다는 가설을 검증한다. 이를 위해 모델 아키텍처에 별도의 헤드(Head)를 추가하지 않고 출력 공간을 RGB 이미지로 고정하는 방식을 채택했다. 학습 시에는 합성 데이터와 모델 기반 주석 데이터를 활용하여 실제 벤치마크 데이터의 오염을 방지했다.
깊이 추정 메커니즘에서는 3D 힐베르트 곡선(Hilbert Curve)과 유사한 방식으로 RGB 큐브의 모서리를 따라 보간하는 선형 함수를 사용하여 거리 값을 색상으로 변환한다. 이 매핑은 엄격하게 가역적(Invertible)이어서 생성된 이미지로부터 정밀한 수치 복원이 가능하다. 또한 다양한 색상 지도(Plasma, Inferno 등)를 학습 데이터에 포함시켜 모델이 특정 색상 표현에 매몰되지 않고 강건한 기하학적 추론을 수행하도록 유도했다.
한계점
생성 모델을 기반으로 하기에 경량화된 전용 모델들에 비해 추론 시 연산 비용이 상대적으로 높다. 또한 현재는 단일 이미지 입력에 집중하고 있어 비디오나 다중 뷰 입력에 대한 시계열적 일관성 확보는 향후 과제로 남아 있다.
실무 활용
별도의 전문 모델 없이 하나의 생성 모델로 세그멘테이션, 깊이 추정, 이미지 편집 등을 통합 수행할 수 있어 리소스 효율적인 시각 시스템 구축이 가능하다.
- 단일 모델을 활용한 자율 주행 로봇의 장애물 인식 및 거리 측정
- 자연어 지시를 통한 정교한 이미지 영역 선택 및 객체 기반 편집 서비스
- 추가 학습 데이터가 부족한 특수 도메인에서의 제로샷 시각 인지 도구
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.