SpecEyes: 투기적 인식 및 계획을 통한 에이전트형 멀티모달 LLM 가속화

기존의 에이전트형 AI는 도구를 여러 번 호출하며 단계별로 생각하느라 응답 속도가 매우 느리고 하드웨어 자원을 효율적으로 쓰지 못하는 문제가 있었다. 이 논문은 가벼운 모델이 먼저 정답을 추측하고 확신이 들 때만 무거운 도구 사용 과정을 건너뛰는 방식으로, 성능 저하 없이 속도를 획기적으로 높이는 방법을 제시한다.

왜 중요한가

핵심 기여

에이전트 수준의 투기적 가속 프레임워크 SpecEyes 설계

토큰 단위가 아닌 에이전트의 도구 호출 루프 전체를 대상으로 하는 최초의 투기적 가속 프레임워크를 설계하여 순차적 병목 현상을 해결함.

답변 분리도 기반의 인지적 게이팅 메커니즘 도입

별도의 정답 레이블 없이도 소형 모델의 출력값 분포(Logits)를 분석하여 결과의 신뢰도를 측정하는 S_sep 지표를 개발함.

이기종 병렬 퍼널 아키텍처 제안

소형 모델의 상태 비저장(Stateless) 병렬 처리 능력을 활용해 대형 모델의 상태 저장(Stateful) 직렬 실행 시간을 가리는 방식으로 시스템 처리량을 극대화함.

핵심 아이디어 이해하기

에이전트형 MLLM은 이미지의 세부 사항을 파악하기 위해 돋보기(Zoom)나 문자 인식(OCR) 도구를 반복적으로 사용한다. 이 과정은 이전 단계의 결과가 다음 단계의 입력이 되는 '데이터 의존성' 때문에 한 번에 하나씩만 처리할 수 있어 응답 시간이 길어지고 GPU의 병렬 연산 능력을 낭비하게 된다.

SpecEyes는 모든 질문이 반드시 복잡한 도구 사용을 필요로 하지는 않는다는 점에 착안한다. 먼저 가벼운 소형 모델이 도구 없이 원본 이미지만 보고 정답을 '직관'적으로 추측(Speculation)하게 한다. 이때 소형 모델이 내놓은 답변 후보들 사이의 점수 차이(Logits margin)를 분석하여 스스로 얼마나 확신하는지 판단한다.

확신이 높으면 무거운 도구 호출 과정을 즉시 종료하고 답변을 출력하며, 확신이 낮을 때만 원래의 복잡한 에이전트 시스템으로 넘긴다(Fallback). 이를 통해 쉬운 문제는 빠르게 처리하고 어려운 문제에만 자원을 집중하여 전체적인 효율성을 높인다.

방법론

4단계 투기적 파이프라인으로 구성된다. 먼저 대형 모델(ML)이 도구 필요 여부를 이진 분류(Phase I)하고, 필요 없다고 판단되면 소형 모델(MS)이 답변과 로짓을 생성(Phase II)한다. 이후 인지적 게이팅(Phase III)을 통해 신뢰도를 평가하고, 기준 미달 시에만 전체 에이전트 루프(Phase IV)를 실행한다.

답변 분리도(S_sep) 계산을 통해 신뢰도를 측정한다. [상위 K개의 로짓 값을 입력으로] → [가장 높은 점수에서 나머지 점수들의 평균을 뺀 뒤 표준편차로 나누는 표준화 연산을 수행해] → [분리도 점수를 얻고] → [이 값이 클수록 최고 답변이 경쟁 답변들로부터 독보적으로 떨어져 있다는 신뢰의 의미]로 해석한다.

이기종 병렬 퍼널(Heterogeneous Parallel Funnel)을 통해 처리량을 최적화한다. [여러 개의 쿼리를 입력으로] → [상태 비저장 방식인 소형 모델들을 GPU 배치 단위로 병렬 연산하여] → [가속된 결과값을 얻고] → [대형 모델의 직렬 실행 시간을 소형 모델의 병렬 처리로 가려 전체 시스템 효율이 향상되는 결과]를 낳는다.

주요 결과

V* Bench, HR-Bench, POPE 벤치마크에서 기존 에이전트 방식 대비 1.1배에서 최대 3.35배의 속도 향상을 달성했다. 특히 DeepEyes 모델을 백본으로 사용했을 때 평균 1.73배의 가속을 기록했다.

단순히 속도만 빨라진 것이 아니라, 불필요한 도구 호출로 인한 환각(Hallucination) 오류를 줄임으로써 POPE 벤치마크 등에서 정확도가 최대 6.7%까지 향상되는 결과를 보였다.

게이팅 임계값(tau)과 배치 크기 조절 실험을 통해, 임계값이 낮아질수록 가속도는 붙지만 정확도가 완만하게 하락하는 Pareto 최적 곡선을 확인했으며, 배치 크기가 커질수록 소형 모델의 병렬 처리 이점이 극대화됨을 입증했다.

실무 활용

실시간 응답이 중요한 멀티모달 에이전트 서비스에서 추론 비용을 절감하고 사용자 경험을 개선하는 데 즉시 적용 가능하다.

고해상도 이미지 내 특정 객체 탐지 및 질의응답 시스템 가속
실시간 영상 보안 모니터링 에이전트의 추론 효율화
모바일 기기 등 저사양 환경에서의 에이전트형 MLLM 배포
대규모 멀티모달 데이터셋의 자동 레이블링 처리량 향상

기술 상세

에이전트 깊이(Agentic Depth, D)를 공식화하여 에이전트의 총 지연시간을 각 단계의 LLM 추론 및 도구 실행 시간의 합으로 정의하고, 데이터 의존성으로 인한 직렬 병목을 수학적으로 모델링했다.

인지적 게이팅의 척도 불변성(Scale-invariance)을 확보했다. 기존 Softmax 확률 기반 신뢰도는 로짓의 절대적 크기에 민감하여 오보정 문제가 있었으나, S_sep는 로짓 간의 상대적 거리와 분산을 이용하므로 온도 변화나 모델별 로짓 스케일에 영향을 덜 받는다.

최소 토큰 집계(Min-token Aggregation) 전략을 채택했다. 답변 전체의 신뢰도를 결정할 때 모든 토큰의 S_sep 중 최솟값을 선택함으로써, 답변 중 단 하나의 토큰이라도 불확실하면 전체를 신뢰하지 않는 보수적인 '최악의 경우 보호' 설계를 구현했다.

구현 측면에서 소형 모델로 Qwen3-VL-2B를, 대형 에이전트 백본으로 DeepEyes와 Thyme을 사용했으며, NVIDIA A100 40GB GPU 환경에서 실험을 수행했다. 도구 호출 횟수는 쿼리당 최대 5회로 제한하여 실험의 일관성을 유지했다.

한계점

현재 투기적 모델은 에이전트 깊이가 0인 경우(도구 미사용)만 예측하며, 도구를 1~2번만 쓰고 멈추는 식의 다단계 투기(Multi-depth speculation)는 아직 지원하지 않는다.

키워드

MLLM(멀티모달 대형 언어 모델)Speculative Decoding(투기적 디코딩)Agentic AI(에이전트형 AI)Inference Acceleration(추론 가속화)Cognitive Gating(인지적 게이팅)

SpecEyes: 투기적 인식 및 계획을 통한 에이전트형 멀티모달 LLM 가속화

왜 중요한가

핵심 기여

에이전트 수준의 투기적 가속 프레임워크 SpecEyes 설계

토큰 단위가 아닌 에이전트의 도구 호출 루프 전체를 대상으로 하는 최초의 투기적 가속 프레임워크를 설계하여 순차적 병목 현상을 해결함.

답변 분리도 기반의 인지적 게이팅 메커니즘 도입

별도의 정답 레이블 없이도 소형 모델의 출력값 분포(Logits)를 분석하여 결과의 신뢰도를 측정하는 S_sep 지표를 개발함.

이기종 병렬 퍼널 아키텍처 제안

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

실시간 응답이 중요한 멀티모달 에이전트 서비스에서 추론 비용을 절감하고 사용자 경험을 개선하는 데 즉시 적용 가능하다.

고해상도 이미지 내 특정 객체 탐지 및 질의응답 시스템 가속
실시간 영상 보안 모니터링 에이전트의 추론 효율화
모바일 기기 등 저사양 환경에서의 에이전트형 MLLM 배포
대규모 멀티모달 데이터셋의 자동 레이블링 처리량 향상

기술 상세

한계점

키워드

MLLM(멀티모달 대형 언어 모델)Speculative Decoding(투기적 디코딩)Agentic AI(에이전트형 AI)Inference Acceleration(추론 가속화)Cognitive Gating(인지적 게이팅)

SpecEyes: 투기적 인식 및 계획을 통한 에이전트형 멀티모달 LLM 가속화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

SpecEyes: 투기적 인식 및 계획을 통한 에이전트형 멀티모달 LLM 가속화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드