핵심 요약
시각-언어-행동(Vision-Language-Action, VLA) 모델은 구체화된 에이전트(Embodied Agents)를 위해 지각, 언어, 제어를 통합하지만, 모델이 더 긴 수평선(Horizons)과 더 큰 백본(Backbones)으로 확장됨에 따라 급격히 증가하는 계산 및 메모리 요구 사항으로 인해 실제 배포에서 상당한 어려움에 직면해 있습니다. 이러한 병목 현상을 해결하기 위해 본 논문에서는 추가 학습이 필요 없는 사후 학습 양자화(Post-Training Quantization, PTQ) 프레임워크인 QuantVLA를 소개합니다. QuantVLA는 우리가 아는 한 VLA 시스템을 위한 최초의 PTQ 접근 방식이며, 확산 트랜스포머(Diffusion Transformer, DiT) 액션 헤드를 성공적으로 양자화한 최초의 사례입니다. QuantVLA는 세 가지 스케일 보정 구성 요소를 포함합니다. 첫째, 언어 백본과 DiT의 모든 선형 레이어를 정수화하는 동시에 원래의 연산자 스케줄을 유지하기 위해 어텐션 투영(Attention Projections)을 부동 소수점으로 유지하는 선택적 양자화 레이아웃(Selective Quantization Layout)입니다. 둘째, 어텐션 로짓(Attention Logits)을 안정화하고 추론 시 역양자화 스케일에 통합되는 경량 헤드별 스케일링 메커니즘인 어텐션 온도 매칭(Attention Temperature Matching)입니다. 셋째, 투영 후 에너지 드리프트(Energy Drift)를 완화하는 레이어별 잔차 인터페이스 보정인 출력 헤드 밸런싱(Output Head Balancing)입니다. 이 프레임워크는 추가 학습이 필요하지 않으며, 레이블이 없는 작은 보정 버퍼(Calibration Buffer)만을 사용하고, 아키텍처를 변경하지 않으면서 가중치와 활성화를 위한 저비트 정수 커널을 지원합니다. LIBERO 데이터셋의 대표적인 VLA 모델들에 대해 실험한 결과, QuantVLA는 전정밀도(Full-precision) 베이스라인의 작업 성공률을 상회하며 양자화된 구성 요소에서 약 70%의 상대적 메모리 절감을 달성하여, 엄격한 계산, 메모리 및 전력 제약 하에서 확장 가능한 저비트 구체화 지능(Embodied Intelligence)을 위한 실질적인 경로를 제공합니다.
핵심 기여
VLA 시스템 전용 최초의 사후 학습 양자화(PTQ) 프레임워크
추가적인 재학습이나 미세 조정 없이도 대규모 시각-언어-행동 모델을 효율적으로 양자화할 수 있는 범용적인 PTQ 방법론을 최초로 제시함.
확산 트랜스포머(DiT) 액션 헤드에 대한 최초의 양자화 적용
VLA 모델의 핵심인 DiT 기반 액션 헤드를 성공적으로 양자화하여, 복잡한 제어 로직을 유지하면서도 연산 효율성을 극대화함.
정밀도 유지를 위한 세 가지 스케일 보정 구성 요소 도입
선택적 양자화 레이아웃, 어텐션 온도 매칭, 출력 헤드 밸런싱을 통해 양자화 과정에서 발생하는 정밀도 손실과 수치적 불안정성을 효과적으로 억제함.
방법론
언어 백본 및 DiT 선형 레이어 정수화와 어텐션 투영 부동 소수점 유지를 결합한 선택적 레이아웃을 적용한다. 어텐션 온도 매칭을 통한 로짓 안정화 및 출력 헤드 밸런싱을 통한 에너지 드리프트 보정을 수행하여 아키텍처 변경 없이 저비트 추론을 지원한다.
주요 결과
LIBERO 벤치마크에서 전정밀도(FP16) 베이스라인을 상회하는 작업 성공률을 기록했다. 양자화된 구성 요소에서 약 70%의 상대적 메모리 절감을 달성하여 저비트 구체화 지능의 가능성을 입증했다.
시사점
로봇 및 드론 등 엣지 디바이스 내 대규모 VLA 모델의 실시간 구동을 위한 실질적 기술 기반을 제공한다. 추가 학습 없는 70% 이상의 메모리 절감은 자원 제한 환경에서의 로봇 제어 시스템 배포 효율성을 극대화한다.
키워드
섹션별 상세
VLA 시스템 전용 최초의 사후 학습 양자화(PTQ) 프레임워크
확산 트랜스포머(DiT) 액션 헤드에 대한 최초의 양자화 적용
정밀도 유지를 위한 세 가지 스케일 보정 구성 요소 도입
AI 요약 · 북마크 · 개인 피드 설정 — 무료