FASTER: 실시간 Flow 기반 VLA 모델의 반응성 재고

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 로봇 AI 모델은 동작의 부드러움에만 치중해 갑작스러운 환경 변화에 늦게 반응하는 치명적인 약점이 있었다. 이 논문은 동작 시퀀스 중 가장 시급한 첫 번째 동작을 단 한 번의 연산으로 생성하는 기법을 통해 반응 속도를 10배 이상 개선하여, 탁구와 같이 고도의 순발력이 필요한 작업에서도 실시간 대응을 가능하게 한다.

왜 중요한가

핵심 기여

반응 지연 시간의 체계적 분석

동작 묶음(Action Chunking) 정책에서 반응 시간이 추론 지연과 실행 호라이즌에 의해 결정되는 확률 분포임을 수학적으로 증명하고, 핵심 지표인 TTFA(Time to First Action)를 정의했다.

Horizon-Aware Schedule (HAS) 도입

동작 시퀀스 내에서 현재와 가까운 동작일수록 더 적은 샘플링 단계로 빠르게 생성하고, 먼 미래의 동작은 정교하게 생성하는 가변 스케줄링 기법을 통해 반응성을 극대화했다.

스트리밍 클라이언트-서버 파이프라인 설계

모든 동작이 생성될 때까지 기다리지 않고, 먼저 완성된 동작부터 즉시 로봇에게 전송하여 실행하는 스트리밍 구조를 구축해 유효 지연 시간을 대폭 줄였다.

저사양 하드웨어에서의 실시간성 입증

RTX 4060과 같은 소비자용 GPU에서도 탁구와 같은 역동적인 작업을 수행할 수 있음을 실세계 실험을 통해 확인했으며, 기존 대비 최대 10배의 가속을 달성했다.

핵심 아이디어 이해하기

로봇이 여러 동작을 한꺼번에 계획할 때, 당장 다음에 해야 할 동작은 현재 눈앞의 상황에 가장 큰 영향을 받으므로 예측하기가 상대적으로 쉽다. 반면 1초 뒤, 2초 뒤의 동작은 불확실성이 크기 때문에 더 많은 고민(연산)이 필요하다. 기존 모델들은 이 차이를 무시하고 모든 동작에 똑같이 많은 연산 시간을 할당하느라 첫 동작을 시작하는 데 너무 오랜 시간이 걸리는 문제가 있었다.

FASTER는 이 직관을 딥러닝의 샘플링 과정에 적용했다. 첫 번째 동작은 단 1단계의 노이즈 제거(Denoising)만 거쳐 즉시 로봇에게 전달하고, 로봇이 그 동작을 수행하는 동안 나머지 미래 동작들을 백그라운드에서 더 정교하게 계산한다. 이는 마치 사람이 날아오는 공을 보고 일단 팔을 뻗으면서(즉각 반응), 팔이 뻗어나가는 동안 정확한 타격 지점을 미세하게 조정하는 것과 유사한 원리이다.

결과적으로 전체적인 동작의 정확도는 유지하면서도, 외부 자극에 반응하는 속도만큼은 획기적으로 줄일 수 있게 되었다. 이는 특히 탁구처럼 0.1초의 지연이 성패를 가르는 역동적인 환경에서 VLA 모델이 실질적으로 작동하게 만드는 핵심 동력이 된다.

방법론

FASTER는 Flow Matching 기반의 VLA 구조를 활용하며, 핵심 메커니즘인 Horizon-Aware Schedule(HAS)을 통해 추론 과정을 최적화한다. 기존의 일정한 타임스텝 스케줄 대신, 동작 인덱스 $i$ 에 따라 서로 다른 타임스텝 $\tau_i$ 를 적용한다.

각 동작의 노이즈 제거 완료 시점인 Hit Time $u_i$ 는 $(1 - i/(H-1))^{\alpha} \cdot u_0$ 수식으로 결정된다. [동작 인덱스 $i$ 와 하이퍼파라미터 $\alpha$ 를 입력으로] → [지수 함수적 감쇠 연산을 수행해] → [각 동작이 샘플링을 멈추는 시점 $u_i$ 를 얻고] → [이 값이 클수록 해당 동작이 적은 단계에서 완성됨을 의미한다]. 첫 번째 동작( $i=0$ )은 $u_0$ 에서 즉시 완성되어 단 1단계의 AE(Action Expert) 연산만으로 출력된다.

학습 단계에서는 Mixed Schedule 전략을 사용한다. [학습 데이터와 혼합 확률 $p$ 를 입력으로] → [베르누이 분포에 따른 선택 연산을 수행해] → [HAS 스케줄과 기존의 Constant 스케줄 중 하나를 적용하고] → [모델이 다양한 타임스텝 분포에서도 안정적으로 속도장을 추정하도록 파인튜닝한다]. 또한, 이전 시퀀스의 동작을 조건으로 활용하는 Action Conditioning 기술을 결합하여 동작의 연속성을 보장한다.

주요 결과

RTX 4090 및 RTX 4060 GPU 환경에서 실험한 결과, X-VLA 모델 기준 RTX 4060에서 TTFA를 기존 399.5ms에서 129.2ms로 약 3배 단축했으며, 전체 반응 속도는 2.62배 향상되었다. 이는 보급형 하드웨어에서도 고성능 로봇 제어가 가능함을 시사한다.

실세계 탁구 작업에서 기존 동기식(Sync) 방식은 반응 지연으로 인해 공을 맞추는 데 완전히 실패했으나, FASTER는 0.80점(1점 만점)의 높은 성공률을 기록했다. 비동기 방식(Naive Async)과 비교해도 공과의 접촉 순간에 더 정확한 라켓 각도를 형성하며 압도적인 반응성을 보였다.

LIBERO 및 CALVIN 시뮬레이션 벤치마크에서는 공격적인 샘플링 전략에도 불구하고 성능 저하가 거의 나타나지 않았다. X-VLA+FASTER 조합은 LIBERO에서 평균 97.0%, CALVIN에서 평균 성공 길이 4.058을 기록하며 기존 다단계 샘플링 방식과 대등한 수준의 정확도를 유지했다.

기술 상세

FASTER 아키텍처는 VLM 백본과 Action Expert(AE) 모듈의 이분법적 구조를 유지하면서, 추론 파이프라인의 시간적 인과 관계를 재설계했다. VLM은 시각적 특징을 추출하는 프리필(Prefill) 단계로 기능하며, AE는 이 특징을 조건으로 동작 시퀀스를 생성한다.

핵심 기술적 차별점은 타임스텝의 인덱스 종속성이다. 기존 Flow Matching이 모든 동작 인덱스에 대해 $\tau \in [1, 0]$ 의 동일한 경로를 밟는 것과 달리, FASTER는 각 인덱스마다 고유한 종료 지점 $u_i$ 를 설정한다. 이를 통해 첫 번째 동작의 TTFA를 $\Delta t_{VLM} + \Delta t_{AE}$ 수준으로 고정시켰으며, 이는 기존의 $\Delta t_{VLM} + N \cdot \Delta t_{AE}$ 대비 연산 복잡도를 획기적으로 낮춘 결과이다.

구현 측면에서는 스트리밍 클라이언트-서버 인터페이스를 통해 네트워크 지연을 마스킹한다. 서버는 각 샘플링 단계에서 완성된 동작( $\tau_i^j = 0$ )을 즉시 패킷화하여 전송하고, 클라이언트는 이를 수신하는 즉시 실행 버퍼에 추가한다. 또한, 실행 호라이즌 내의 모든 동작이 완성되면 남은 샘플링 단계를 건너뛰는 Early Stopping 전략을 통해 전체 추론 주기를 가속화한다.

한계점

매우 짧은 실행 호라이즌(s=1) 환경에서는 HAS의 가변 스케줄링 효과가 제한적일 수 있다. 또한, 극단적으로 공격적인 샘플링(1단계)이 복잡한 장기 궤적의 정밀도에 미세한 영향을 줄 가능성이 존재한다.

실무 활용

연산 자원이 제한적인 엣지 디바이스나 보급형 GPU를 사용하는 로봇 시스템에서 실시간 제어 성능을 극대화할 수 있는 솔루션이다. 모델 구조 변경이나 대규모 재학습 없이 기존 Flow 기반 VLA 모델에 즉시 적용 가능하다.

탁구, 배드민턴 등 고속 이동 물체에 즉각 대응해야 하는 스포츠 로봇
사람의 돌발 행동이나 장애물을 실시간으로 회피해야 하는 서비스 및 안내 로봇
컨베이어 벨트 위에서 빠르게 움직이는 물체를 분류하고 집어 올리는 물류 자동화 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLA(시각-언어-동작 모델)Action Chunking(동작 묶음)Flow Matching(플로우 매칭)Real-Time Robotics(실시간 로봇 공학)TTFA(첫 동작 생성 시간)