핵심 요약
기존 시각 인지 시스템은 특징 추출을 위한 인코더와 작업 예측을 위한 디코더가 분리된 복잡한 구조를 가졌다. 이 논문은 이미지 패치와 텍스트 토큰을 첫 레이어부터 공유된 파라미터 공간에서 처리하는 초기 융합 방식을 통해 구조를 단순화하면서도 성능을 높일 수 있음을 증명한다. 특히 고해상도 마스크 예측과 복잡한 프롬프트 이해에서 기존 SOTA 모델인 SAM3를 뛰어넘는 효율성을 보여준다.
왜 중요한가
기존 시각 인지 시스템은 특징 추출을 위한 인코더와 작업 예측을 위한 디코더가 분리된 복잡한 구조를 가졌다. 이 논문은 이미지 패치와 텍스트 토큰을 첫 레이어부터 공유된 파라미터 공간에서 처리하는 초기 융합 방식을 통해 구조를 단순화하면서도 성능을 높일 수 있음을 증명한다. 특히 고해상도 마스크 예측과 복잡한 프롬프트 이해에서 기존 SOTA 모델인 SAM3를 뛰어넘는 효율성을 보여준다.
핵심 기여
통합 밀집 트랜스포머 아키텍처
이미지와 텍스트를 첫 레이어부터 동일한 파라미터 공간에서 처리하는 단일 스택 구조를 채택하여 인코더-디코더 분리 구조의 병목 현상을 제거했다.
하이브리드 어텐션 마스크
이미지 토큰 간에는 양방향 어텐션을, 텍스트 및 작업 토큰에는 인과적 어텐션을 적용하여 시각적 컨텍스트와 자기회귀적 생성을 동시에 최적화했다.
인지 체인(Chain-of-Perception) 전략
인스턴스 분할 작업을 좌표, 크기, 세그멘테이션 순서의 시퀀스로 분해하여 모델이 단계적으로 객체를 구체화하도록 유도했다.
PBench 벤치마크 도입
OCR, 공간 제약, 관계 이해 등 복잡한 구성을 가진 프롬프트와 고밀도 장면에서의 성능을 평가하기 위한 새로운 인지 벤치마크를 제안했다.
핵심 아이디어 이해하기
기존 시각 인지 모델은 이미지를 해석하는 인코더와 명령어를 이해해 결과를 내놓는 디코더가 물리적으로 분리되어 있었다. 이로 인해 이미지의 세부 정보가 디코더로 전달되는 과정에서 손실되거나, 텍스트 명령어와 이미지 특징이 충분히 상호작용하지 못하는 한계가 있었다.
Falcon Perception은 이미지 패치와 텍스트 토큰을 임베딩 단계에서부터 하나로 합쳐 동일한 트랜스포머 층을 통과시킨다. 이미지 토큰들은 서로의 관계를 자유롭게 살피는 양방향 어텐션을 수행하고, 텍스트 토큰은 앞선 이미지 정보를 바탕으로 다음 결과를 예측하는 인과적 어텐션을 수행한다. 이를 통해 모델은 첫 번째 레이어부터 텍스트 명령에 맞춰 이미지의 특정 부분을 더 집중해서 바라볼 수 있게 된다.
결과적으로 복잡한 '왼쪽 빨간 차 옆의 사람' 같은 명령어를 처리할 때, 별도의 융합 모듈 없이도 모델 내부에서 자연스럽게 시각 정보와 언어 정보가 결합되어 정확한 위치와 마스크를 찾아낸다.
방법론
이미지는 N개의 패치로 평탄화되어 시각 임베딩 V로 투영되고, 텍스트 프롬프트는 L개의 임베딩 T로 매핑된다. 이들을 결합한 통합 시퀀스 X를 구성하며, 이미지 토큰은 양방향으로, 텍스트 및 작업 토큰은 이전 토큰들만 참조하는 인과적 방식으로 마스킹하여 학습한다.
좌표와 크기 예측 시 표준 토큰화의 정밀도 한계를 극복하기 위해 푸리에 특징 매핑을 도입했다. 입력 좌표 c를 사인 및 코사인 함수를 이용해 고차원 공간으로 투영함으로써 신경망이 미세한 공간적 차이를 더 잘 학습하도록 설계했다.
고해상도 마스크 생성을 위해 토큰의 은닉 상태와 업샘플링된 이미지 특징 간의 내적을 수행한다. 시그모이드 함수를 거친 결과값이 0.5보다 크면 해당 픽셀을 객체로 판단하는 방식으로 별도의 마스크 쿼리 없이도 효율적으로 픽셀 단위 마스크를 생성한다.
멀티 티처 증류를 통해 가중치를 초기화한 후, 685GT 규모의 데이터로 3단계 학습을 진행한다. 1단계는 전체 시퀀스 예측, 2단계는 독립 쿼리 정렬을 위한 마스킹 적용, 3단계는 고밀도 장면 대응을 위한 롱 컨텍스트 파인튜닝으로 구성된다.
주요 결과
SA-Co 벤치마크에서 Falcon Perception은 68.0 Macro-F1을 기록하여 SAM3의 62.3을 상회하는 마스크 품질을 보여주었다. 특히 Food&Drink(70.3 vs 58.1), Sports(75.2 vs 71.2) 등 다양한 도메인에서 일관된 성능 향상을 입증했다.
새로 도입된 PBench 평가 결과, 공간 이해(Level 3)에서 +21.9점, OCR 가이드 인지(Level 2)에서 +13.4점의 큰 폭의 성능 향상을 보였다. 이는 초기 융합 구조가 복잡한 프롬프트 해석에 매우 효과적임을 시사한다.
Falcon OCR 확장 모델(300M)은 olmOCR에서 80.3%, OmniDocBench에서 88.64%를 달성했다. 이는 수십 배 더 큰 파라미터를 가진 모델들과 대등하거나 더 우수한 성능으로, 효율적인 아키텍처의 위력을 보여준다.
기술 상세
아키텍처는 단일 트랜스포머 스택을 기반으로 하며, 3D Rotary Positional Embeddings(GGRoPE)를 사용하여 이미지의 2D 격자 구조와 시퀀스의 1D 순서를 동시에 보존한다. 헤드 차원을 시퀀스 성분과 공간 성분으로 나누어 회전 변환을 적용함으로써 회전 및 종횡비 변화에 강건한 어텐션 맵을 생성한다.
Native Resolution Handling을 위해 'scatter-and-pack' 전략을 사용한다. 이미지를 패치화한 후 패딩 토큰을 제거하고 유효한 패치만 모아 고정된 길이의 시퀀스로 패킹하여 GPU 효율을 극대화한다.
손실 함수는 언어 모델링 손실, 좌표 손실, 크기 손실, 마스크 손실, 그리고 증류 단계의 특징 보존을 위한 Gram 손실의 가중 합으로 정의된다. 특히 좌표와 크기는 1024개의 빈으로 이산화하여 교차 엔트로피로 학습한다.
추론 시에는 결정론적 예측뿐만 아니라 샘플링 기반의 Pass@k 방식을 지원한다. 이를 통해 복잡한 추론이 필요한 장면에서 확률 분포 내의 더 정확한 해를 찾아낼 수 있으며, Pass@8 기준 SAM3 대비 최대 19.6점의 성능 향상을 기록했다.
한계점
단일 스택 자기회귀 모델은 학습 비용이 높고, 추론 속도가 완전히 병렬화된 DETR 계열 모델보다 느릴 수 있다. 또한 SAM3와 비교했을 때 객체 존재 여부를 판단하는 캘리브레이션 성능에서 다소 뒤처지는 모습을 보였다.
실무 활용
고해상도 이미지 인지 및 복잡한 문서 구조 분석이 필요한 실무 환경에 즉시 적용 가능한 경량화된 고성능 모델이다.
- 자율 주행 시스템의 정밀 객체 분할 및 관계 파악
- 복잡한 서식, 표, 수식이 포함된 전문 문서의 자동 OCR 및 구조화
- 모바일 기기 등 저사양 환경에서의 실시간 시각 에이전트 구현
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.