왜 중요한가
고해상도 이미지는 상세 정보 파악에 필수적이지만 연산 비용이 매우 큽니다. AwaRes는 전체 이미지를 고해상도로 처리하는 대신 필요한 부분만 골라 보는 '도구 호출' 방식을 도입해 정확도는 유지하면서 추론 비용과 속도를 획기적으로 개선했습니다.
핵심 기여
공간적 온디맨드(Spatial-on-demand) 추론 프레임워크 제안
저해상도 전역 뷰에서 시작하여 추가 세부 정보가 필요한 경우에만 특정 영역을 고해상도 크롭으로 요청하는 도구 호출 인터페이스를 구현했다.
자동화된 멀티턴 데이터 큐레이션 파이프라인 구축
수동 어노테이션 없이 LLM Judge와 Oracle Grounding 모델을 활용해 저해상도 부족 여부를 판단하고 필요한 크롭 영역을 식별하는 학습 데이터를 생성했다.
멀티턴 GRPO를 통한 정확도-효율성 최적화
정답 정확도와 크롭 비용(토큰 수)을 동시에 고려한 복합 보상 함수를 설계하고, GRPO 알고리즘을 통해 모델이 불필요한 크롭을 줄이도록 최적화했다.
핵심 아이디어 이해하기
기존 VLM은 고해상도 이미지를 처리할 때 모든 픽셀을 토큰화하므로 이미지 크기가 커질수록 연산량이 급격히 증가한다. 반면 저해상도로 줄이면 작은 텍스트나 세밀한 물체를 놓치는 한계가 있다. AwaRes는 '어디를 볼 것인가'가 '보느냐 마느냐'만큼 중요하다는 점에 착안했다. 먼저 저해상도 이미지를 훑어본 뒤, 질문에 답하기 위해 더 자세한 정보가 필요한 특정 구역(Crop)만 고해상도로 다시 불러오는 '도구 호출(Tool-calling)' 메커니즘을 사용한다. 이는 마치 사람이 멀리서 풍경을 보다가 궁금한 부분만 돋보기로 확대해 보는 것과 같다. 결과적으로 전체 이미지의 36%에 해당하는 토큰만 사용하면서도 전체를 고해상도로 읽었을 때와 동일한 수준의 정확도를 확보했다.
방법론
전체 시스템은 저해상도 뷰(I_low)를 먼저 입력받아 직접 답변(Direct answer)할지, 아니면 크롭 요청(Crop request)을 보낼지 결정하는 결합 결정 정책(Coupled-decision policy, CDP)을 기반으로 한다. 크롭이 결정되면 사전에 정의된 9개의 영역(4개 사분면, 4개 반원, 중앙) 중 최적의 부분집합을 선택한다. 학습 데이터는 3단계 파이프라인으로 생성된다. 먼저 LLaMA-3.3-70B를 Judge로 사용하여 저해상도 답변과 고해상도 답변의 정답 여부를 비교해 크롭 필요성을 라벨링한다. 이후 Qwen3-VL을 Oracle Grounding 모델로 써서 정답의 근거가 되는 영역의 Bounding Box를 추출하고 이를 이산적인 크롭 세트로 매핑한다. 학습은 Cold-start SFT 후 멀티턴 GRPO 순으로 진행된다. GRPO 단계에서는 보상 함수 R = R_ans - C_tool을 사용한다. R_ans는 정답의 시맨틱 유사도이며, C_tool은 크롭 사용 여부와 선택된 영역의 면적 비율(||C||)에 비례하는 페널티를 부여한다. [정답 유사도에서 크롭 면적 페널티를 차감] → [최종 보상 산출] → [정확도를 유지하며 토큰 사용량을 최소화하는 방향으로 정책 갱신] 과정을 거친다.
주요 결과
ChartQA, DocVQA, OCRBench 등 6개 벤치마크 평가 결과, AwaRes는 평균 80.3%의 정확도를 기록하여 전체 고해상도 베이스라인(80.46%)과 대등한 성능을 보였다. 특히 ChartQA와 DocVQA에서는 베이스라인보다 높은 성능을 기록하면서도 효율성은 크게 높였다. 효율성 측면에서 AwaRes는 전체 시각 토큰의 36%만 사용했다(RTR=0.36). 이는 고정된 비율로 토큰을 제거하는 기존의 Token Pruning 방식보다 동일 토큰량 대비 약 4% 이상 높은 정확도를 제공하는 수치다. 추론 속도(Latency) 분석 결과, AwaRes는 평균 0.61초의 지연 시간을 기록하여 유사한 적응형 방식인 VisionThink(2.71초)보다 약 4.4배 빨랐다. 이는 AwaRes가 복잡한 추론 과정 없이 짧고 구조화된 도구 호출만으로 결정을 내리기 때문이다.
실무 활용
문서 이해, 차트 분석, 정밀 객체 인식 등 고해상도가 필요한 실무 환경에서 VLM의 운영 비용을 60% 이상 절감할 수 있는 실용적인 기술이다. 기존 VLM 아키텍처를 변경하지 않고도 KV-캐시 재사용이 가능한 멀티턴 구조로 즉시 배포가 가능하다.
- 대규모 문서 아카이브에서 특정 정보(날짜, 금액 등)를 빠르게 추출하는 OCR 시스템
- 복잡한 데이터 시각화 차트에서 세부 수치를 읽어내야 하는 금융 분석 에이전트
- 고해상도 CCTV 영상에서 작은 물체나 번호판을 식별해야 하는 보안 관제 시스템
기술 상세
AwaRes는 Qwen2.5-VL-7B-Instruct를 베이스 모델로 하며, 저해상도(원본의 1/2 크기) 전역 뷰를 기본 입력으로 사용한다. 도구 호출을 통해 요청된 크롭은 베이스 모델의 네이티브 고해상도 토큰 밀도로 렌더링되어 대화 컨텍스트에 추가된다. 핵심 알고리즘인 CDP는 첫 번째 턴에서 '에스컬레이션 여부'와 '타겟 영역 선택'을 동시에 수행한다. 이는 1[C≠∅] (에스컬레이션 여부)와 P(C|C≠∅) (영역 분포)의 결합 확률 분포로 모델링된다. GRPO 학습 시 KL Divergence 페널티를 사용하여 SFT로 학습된 참조 정책(π_ref)에서 너무 멀어지지 않도록 규제한다. 보상 함수 설계 시 'Missed tool-call'(필요한데 안 부름)에 대한 페널티(α_miss=2)를 'Unnecessary request'(안 필요한데 부름)보다 크게 설정하여 재현율(Recall)을 높였다. 멀티턴 추론 과정에서 저해상도 뷰와 쿼리는 이미 KV-캐시에 저장되어 있으므로, 두 번째 턴(크롭 입력)에서는 추가된 크롭 토큰에 대해서만 연산이 발생하여 시스템 효율성을 극대화한다.
한계점
질문과 관련된 세부 정보가 이미지의 아주 작거나 모호한 부분에 위치할 경우, 크롭 영역이 주변의 불충분한 컨텍스트만 포함하게 되어 오답을 낼 수 있다. 또한 Oracle Grounding 모델이 영역을 잘못 짚을 경우 학습 데이터의 품질이 저하될 위험이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.