HCompany, 컴퓨터 사용 에이전트 모델 Holo3.1 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

HCompany가 컴퓨터 사용 에이전트 모델 Holo3.1을 공개했다. 이 모델은 웹, 데스크톱, 모바일 등 다양한 환경에서 범용성을 높이고, 기존 Holo3 대비 모바일 자동화 성능을 크게 개선했다. 특히 FP8, Q4 GGUF, NVFP4 등 다양한 양자화 체크포인트를 지원하여 로컬 및 엣지 환경에서 효율적인 추론이 가능하다. 35B-A3B 모델을 포함한 4가지 크기로 제공되어 성능과 비용 간의 최적화된 선택지를 제공한다.

배경

컴퓨터 사용 에이전트 개념, 양자화 및 모델 추론 기초, 에이전트 프레임워크 사용 경험

대상 독자

컴퓨터 사용 에이전트를 프로덕션 환경에 배포하려는 개발자 및 기업

의미 / 영향

컴퓨터 사용 에이전트 모델의 양자화 지원은 클라우드 의존도를 낮추고 로컬 환경에서의 프라이버시와 속도를 동시에 확보할 수 있게 한다. 이는 기업이 다양한 에이전트 프레임워크와 결합하여 온디바이스 자동화 솔루션을 구축하는 데 중요한 전환점이 된다.

섹션별 상세

Holo3.1은 모바일 환경 자동화 성능을 강화했다. AndroidWorld 벤치마크에서 35B-A3B 모델은 79.3%, 4B 및 9B 모델은 72%의 정확도를 기록하며 이전 버전 대비 성능을 개선했다.

Holo3.1 모델의 다양한 벤치마크 성능 비교표. — ChartHolo3.1 35B-A3B 모델이 OSWorld, Android World 등 주요 벤치마크에서 타 모델 대비 우수한 성능을 기록했음을 보여준다.

근거

AndroidWorld 벤치마크에서 35B-A3B 모델은 79.3%, 4B 및 9B 모델은 72%의 정확도를 기록했다. — Mobile Automation 섹션

다양한 에이전트 프레임워크 지원을 위해 함수 호출 프로토콜을 기본 탑재했다. OSWorld 벤치마크에서 함수 호출과 네이티브 실행 간의 성능 격차를 거의 해소하며 호환성을 높였다.

로컬 및 온디바이스 추론을 위해 0.8B부터 35B-A3B까지 4가지 모델 크기를 제공한다. 배포 환경에 맞춰 성능과 비용을 최적화할 수 있는 선택지를 넓혔다.

Holo3.1 모델 크기별 벤치마크 성능 비교표. — Chart0.8B부터 35B-A3B까지 모델 크기에 따른 성능 변화를 나타내며, 35B-A3B가 전반적으로 가장 높은 성능을 보임을 확인시켜 준다.

Holo3.1과 Qwen 3.5 모델의 성능 대비 비용 효율성 그래프. — ChartHolo3.1 모델군이 Qwen 3.5 대비 동일 비용 대비 더 높은 성능을 제공하거나, 유사 성능을 더 낮은 비용으로 달성함을 보여준다.

FP8, Q4 GGUF, NVFP4 등 최적화된 양자화 체크포인트를 도입했다. NVFP4 W4A16 구성은 BF16 대비 1.74배 높은 토큰 처리량을 달성하며 성능 저하를 최소화했다.

Holo3.1 35B-A3B 모델의 정밀도별 품질과 처리량 비교. — ChartNVFP4, FP8, BF16 정밀도에 따른 OSWorld 정확도와 토큰 처리량을 비교하여 NVFP4가 성능 저하 없이 처리량을 극대화함을 입증한다.

근거

NVFP4 W4A16 구성은 BF16 대비 1.74배 높은 토큰 처리량을 달성했다. — Fast & Local Inference 섹션

NVIDIA DGX Spark 환경에서 에이전트 하네스 최적화와 NVFP4 양자화를 결합했다. 엔드투엔드 속도를 약 2배 개선하여 평균 단계 처리 시간을 6.8초에서 3.3초로 단축했다.

플랫폼 및 정밀도별 에이전트 요청 처리율 비교. — ChartDGX Spark 환경에서 vLLM과 NVFP4 조합이 가장 높은 요청 처리율을 기록하며, 하네스 최적화의 효과를 보여준다.

근거

평균 단계 처리 시간을 6.8초에서 3.3초로 단축했다. — Towards Local Agents on Consumer Hardware 섹션

용어 해설

Computer Use: — AI 모델이 마우스 클릭, 키보드 입력 등 GUI 환경을 직접 조작하여 작업을 수행하는 능력. 웹 브라우저, 데스크톱 앱, 모바일 환경 등에서 인간의 조작을 모방하여 자동화를 구현한다.
Quantization: — 모델의 가중치 정밀도를 낮추어 메모리 사용량을 줄이고 추론 속도를 높이는 기법. FP8, INT4, GGUF 등 다양한 포맷이 존재하며, 성능 저하를 최소화하면서 로컬 환경 배포를 가능하게 한다.
GGUF: — llama.cpp 등에서 주로 사용하는 모델 파일 포맷. 단일 파일로 모델을 배포할 수 있고, CPU와 GPU를 활용한 효율적인 로컬 추론을 지원하여 소비자용 하드웨어에서 모델 구동을 돕는다.
NVFP4: — NVIDIA의 모델 최적화 도구를 활용한 4비트 양자화 포맷. W4A16 구성을 통해 모델 크기를 줄이면서도 추론 처리량을 극대화하여 고성능 에이전트 워크로드에 적합하다.
Agent Harness: — 에이전트가 환경과 상호작용하고 작업을 수행할 수 있도록 돕는 실행 프레임워크. 다양한 환경에서 에이전트의 성능을 평가하고 배포하는 인터페이스 역할을 한다.

언급된 리소스

API DocsHolo Models API

GitHubHugging Face Collection