핵심 요약
기존 시각-언어 모델이 복잡한 숫자 좌표계를 텍스트로 학습해야 했던 한계를 극복하기 위해 이미지 패치를 직접 선택하는 Grounding Token 방식을 도입했다. 이를 통해 학습 효율을 대폭 높였으며, 특히 고해상도 GUI 조작과 비디오 객체 추적에서 기존 모델들을 압도하는 정밀도를 증명했다.
왜 중요한가
기존 시각-언어 모델이 복잡한 숫자 좌표계를 텍스트로 학습해야 했던 한계를 극복하기 위해 이미지 패치를 직접 선택하는 Grounding Token 방식을 도입했다. 이를 통해 학습 효율을 대폭 높였으며, 특히 고해상도 GUI 조작과 비디오 객체 추적에서 기존 모델들을 압도하는 정밀도를 증명했다.
핵심 기여
Grounding Token 메커니즘 도입
텍스트 형태의 좌표 생성 대신 시각적 토큰을 직접 참조하는 <PATCH>, <SUBPATCH>, <LOCATION> 토큰 체계를 설계하여 모델이 시각적 특징에 직접 Attention할 수 있도록 구현했다.
계층적 Coarse-to-Fine 포인팅
28x28 픽셀 단위의 거친 패치에서 시작해 14x14 서브패치를 거쳐 최종 3x3 그리드 내의 점을 선택하는 3단계 구조를 통해 초고해상도 이미지에서도 4.7픽셀 수준의 정밀도를 확보했다.
상대적 위치 인식을 위한 RoPE 적용
Rotary Embedding을 포인팅 스코어 계산에 통합하여 이전에 선택한 지점과의 상대적 거리를 인코딩함으로써 일관된 순서의 포인팅과 안정적인 비디오 객체 추적 성능을 달성했다.
대규모 GUI 및 추적 데이터셋 구축
고해상도 GUI 환경을 위한 합성 데이터셋인 MolmoPoint-GUISyn과 인간 주석 및 합성이 결합된 비디오 추적 데이터셋 MolmoPoint-Track을 공개하여 연구 생태계에 기여했다.
핵심 아이디어 이해하기
Transformer의 Attention 메커니즘은 입력 데이터 간의 연관성을 점수로 계산하여 중요한 정보를 추출한다. 기존의 시각-언어 모델(VLM)은 이 점수를 활용해 이미지를 이해하면서도, 특정 위치를 지칭할 때는 시각적 특징과 무관한 '[123, 456]' 같은 숫자 좌표를 텍스트로 생성해야 했다. 이는 모델이 시각적 정보와 추상적인 숫자 체계 사이의 복잡한 매핑을 별도로 암기해야 하는 비효율을 초래하며, 이미지 해상도가 조금만 달라져도 성능이 급격히 저하되는 원인이 된다.
MolmoPoint는 모델이 이미 내부적으로 계산하고 있는 Attention 스코어를 좌표값으로 직접 활용한다. 특정 객체를 가리키라는 명령이 주어지면, 모델은 해당 객체의 특징(Embedding)과 가장 일치하는 이미지 패치를 '선택'하는 전용 토큰을 생성한다. 이는 모델이 이미 알고 있는 시각적 특징을 그대로 위치 정보로 변환하는 원리이므로, 좌표계를 새로 배울 필요 없이 시각적 인지 능력만으로 정확한 포인팅이 가능해진다.
이 방식은 이미지 해상도 변화에 매우 강인하다. 텍스트 좌표는 해상도에 따라 숫자의 의미가 변하지만, 시각적 토큰은 이미지 픽셀 데이터에 직접 결합되어 있기 때문이다. 결과적으로 MolmoPoint는 기존 방식보다 훨씬 적은 양의 데이터로도 빠르게 학습하며, 복잡한 웹 페이지의 작은 버튼이나 빠르게 움직이는 비디오 속 객체를 놓치지 않고 정확하게 짚어내는 능력을 갖추게 된다.
방법론
전체 포인팅 과정은 계층적 선택 구조로 설계됐다. 첫 번째 단계인 선택에서는 모델의 은닉 상태 를 입력으로 받아 선형 변환 를 통해 쿼리 벡터 를 생성하고, 이미지 토큰들의 은닉 상태 를 키 벡터 로 변환한다. 두 벡터를 내적한 후 으로 나누어 스케일링하고 Softmax를 취해 각 패치의 선택 확률을 계산한다. [ 선형 변환 내적 및 스케일링 패치 선택 확률] 순서로 동작하여 28x28 픽셀 영역을 확정한다.
두 번째 단계인 는 선택된 패치 내부를 더 세밀하게 탐색한다. ViT(Vision Transformer)의 풀링되지 않은 특징 맵 를 키로 활용하고, 토큰의 은닉 상태에서 추출한 쿼리 와 매칭하여 패치를 다시 4개의 구역(14x14 해상도)으로 나눈다. 마지막 토큰은 해당 구역 내에서 3x3 그리드 분류기를 통해 최종 좌표를 결정한다.
학습 및 추론의 안정성을 위해 Rotary Embedding(RoPE)을 Attention 스코어 계산식 에 통합했다. 여기서 는 현재 패치 위치, 는 이전 선택 위치를 의미하며, 이를 통해 모델이 이미지 내의 공간적 선후 관계를 명확히 인지하게 한다. 또한 더 이상 찍을 점이 없을 때 선택하는 클래스를 추가하여 무한 루프나 과도한 포인팅 생성을 방지하는 제어 메커니즘을 구현했다.
주요 결과
자연어 이미지 포인팅 벤치마크인 PointBench에서 70.7%의 정확도를 기록하며 기존 SOTA 모델들을 제치고 1위에 올랐다. 특히 공간적 추론 능력을 평가하는 Spat. 항목에서 76.9%를 달성하여 Molmo2-8B(71.3%) 대비 5.6%p의 뚜렷한 성능 향상을 보였다. 이는 Grounding Token 방식이 모델의 공간 이해도를 직접적으로 높였음을 시사한다.
GUI 조작 성능을 측정하는 ScreenSpotPro에서는 61.1%를 기록하여 오픈소스 모델 중 최고 성능을 달성했다. 이는 텍스트 좌표 방식을 사용하는 베이스라인 모델(52.3%)보다 8.8%p 높은 수치이다. 고해상도 인터페이스에서 아주 작은 UI 요소를 정확히 클릭해야 하는 작업에서 MolmoPoint의 계층적 정밀화 전략이 효과적임이 입증됐다.
비디오 객체 추적 분야에서도 괄목할만한 성과를 거두었다. Molmo2Track 데이터셋에서 F1 점수 62.5를 기록해 기존 모델 대비 6.3점 향상됐으며, 인간 선호도 조사에서도 텍스트 좌표 방식 대비 59.1%의 승률을 기록했다. Rotary Embedding을 통한 상대적 위치 인코딩이 프레임 간 객체의 일관된 추적을 가능하게 한 핵심 요인으로 분석됐다.
기술 상세
MolmoPoint 아키텍처는 8B 파라미터 규모의 LLM과 ViT-L/14 이미지 인코더를 결합한 구조를 기반으로 한다. 포인팅 기능을 위해 어휘 사전에 , , , 4개의 특수 토큰을 추가하고, 이 토큰들이 시각적 특징 맵에 Attention할 수 있도록 전용 선형 프로젝터 레이어를 학습시켰다.
포인팅 메커니즘의 핵심은 계층적 디코딩이다. 첫 단계에서 28x28 픽셀 해상도의 패치를 선택하고, 두 번째 단계에서 ViT의 풀링 전 특징을 활용해 14x14 해상도로 좁힌 뒤, 마지막에 3x3 그리드 분류를 통해 약 4.7픽셀 수준의 정밀도를 확보한다. 이는 텍스트 좌표 방식이 해상도에 의존적인 것과 달리, 이미지 특징 자체에 기반하므로 초고해상도 이미지에서도 일관된 성능을 유지한다.
데이터 측면에서는 LLM을 활용해 HTML 코드를 생성하고 이를 렌더링하여 36,000개의 고해상도 GUI 스크린샷과 1,000만 개의 포인팅 지침을 포함하는 MolmoPoint-GUISyn 데이터셋을 구축했다. 또한 비디오 데이터를 위해 프레임 간 위치 관계를 보존하는 RoPE(Rotary Positional Embedding)를 Attention 스코어 계산식에 통합하여 시공간적 일관성을 강화했다.
한계점
ReasonVOS와 같이 정밀한 공간 포인팅보다 고도의 의미론적 추론이 더 중요한 쿼리에서는 Grounding Token 방식의 이점이 상대적으로 적게 나타나는 경향이 있다.
실무 활용
GUI 에이전트, 로봇 제어, 비디오 분석 등 정밀한 시각적 지칭이 필요한 실무 환경에 즉시 적용 가능한 기술이다.
- 웹 브라우저 및 모바일 앱 내 특정 버튼이나 입력창을 자동으로 식별하고 클릭하는 자율 GUI 에이전트
- CCTV나 블랙박스 영상에서 특정 객체를 실시간으로 추적하고 좌표를 추출하는 보안 시스템
- 로봇 팔이 물체를 집어 올리기 위해 정확한 파지 지점(Grasping Point)을 계산하는 산업용 비전 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.