H Company, 고처리량 컴퓨터 사용 에이전트 모델 'Holotron-12B' 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 모델은 정적 이미지 이해에 치중되어 실시간 상호작용이 필요한 컴퓨터 사용 에이전트로서의 효율성이 부족했다. H Company는 NVIDIA의 하이브리드 SSM-Attention 구조인 Nemotron-Nano-2 VL을 기반으로 한 Holotron-12B를 공개하여 이 문제를 해결했다. 이 모델은 선형 재귀 모델인 SSM의 특성을 활용해 메모리 사용량을 획기적으로 줄이고, 기존 모델 대비 2배 이상의 추론 처리량을 달성했다. WebVoyager 등 주요 에이전트 벤치마크에서 성능이 대폭 향상되었으며, 대규모 프로덕션 환경에서의 자율 컴퓨터 조작 에이전트 배포에 최적화되어 있다.

배경

멀티모달 LLM 기본 지식, vLLM 사용법, 컴퓨터 사용 에이전트(Computer Use Agent) 개념

대상 독자

AI 에이전트 개발자 및 MLOps 엔지니어

의미 / 영향

이 모델은 SSM 아키텍처가 실제 프로덕션 환경의 에이전트 워크로드에서 Transformer보다 훨씬 효율적일 수 있음을 증명한다. 특히 고가의 GPU 자원을 적게 쓰면서도 더 많은 동시 요청을 처리할 수 있어, 에이전트 서비스의 운영 비용을 대폭 낮추는 계기가 될 것이다.

섹션별 상세

Holotron-12B는 NVIDIA Nemotron-Nano-12B-v2-VL-BF16을 베이스로 H Company의 독자적인 데이터셋을 활용해 사후 학습된 12B 파라미터 규모의 멀티모달 모델이다.

하이브리드 SSM(State-Space Model) 및 Attention 아키텍처를 채택하여, 토큰 길이에 따라 연산량이 급증하는 기존 Transformer의 한계를 극복하고 긴 컨텍스트에서도 높은 효율을 유지한다.

SSM 구조는 레이어당 고정된 상태값만 유지하므로 KV Cache 저장 부담이 없으며, 이는 동일 하드웨어에서 더 큰 배치 사이즈 처리를 가능하게 하여 메모리 점유율을 낮춘다.

단일 H100 GPU에서 vLLM 최적화를 적용해 테스트한 결과, Holo2-8B 모델 대비 2배 이상의 토큰 처리량인 최대 8.9k tokens/s를 기록하며 높은 동시성 환경에서의 우수성을 입증했다.

WebVoyager 벤치마크 점수가 기존 베이스 모델의 35.1%에서 80.5%로 비약적으로 상승했으며, 화면 이해 및 UI 요소 위치 파악(Grounding) 능력이 크게 강화되었다.

실무 Takeaway

컴퓨터 조작 에이전트 구축 시 하이브리드 SSM 아키텍처를 활용하면 긴 대화 기록과 다중 이미지 입력 상황에서도 메모리 비용을 획기적으로 낮출 수 있다.
Holotron-12B는 vLLM v0.14.1 이상의 SSM 최적화 엔진과 결합할 때 단일 GPU에서 초당 8,000개 이상의 토큰을 처리하는 고성능 추론이 가능하다.
NVIDIA Open Model License로 공개되어 Hugging Face에서 즉시 사용 가능하므로, 데이터 생성이나 온라인 강화학습 등 처리량이 중요한 워크로드에 즉시 도입할 수 있다.

언급된 리소스

문서Holotron-12B on Hugging Face

문서NVIDIA Nemotron-Nano-12B-v2-VL-BF16