HomeSafe-Bench: 가정용 에이전트의 위험 행동 탐지를 위한 시각-언어 모델 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

가정용 로봇이 실생활에 보급되면서 전자레인지에 금속을 넣는 등의 예측 불가능한 위험 상황을 실시간으로 막는 기술이 중요해졌다. 이 논문은 실제 사고 데이터를 기반으로 로봇의 위험 행동을 평가하는 벤치마크와 저지연-고성능을 동시에 달성한 이중 구조의 감시 시스템을 통해 안전한 로봇 배포의 기술적 토대를 마련했다.

왜 중요한가

핵심 기여

HomeSafe-Bench 벤치마크 구축

6가지 가정 내 기능 구역에서 발생할 수 있는 438개의 위험 시나리오를 물리 시뮬레이션과 영상 생성 모델을 결합해 데이터셋으로 제작했다.

HD-Guard 계층적 아키텍처 제안

가벼운 FastBrain과 강력한 SlowBrain을 계층적으로 연결해 실시간 감시와 심층 추론의 균형을 맞춘 시스템을 설계했다.

로봇 안전 특화 평가 지표 도입

위험 감지율(HDR), 유효 경고 정밀도(EWP), 가중 안전 점수(WSS) 등 로봇의 실시간 개입 능력을 측정하는 4가지 지표를 정의했다.

최신 VLM의 안전 성능 한계 규명

15종의 VLM을 평가하여 시각적 개체 누락과 인과 추론 부족이 현재 모델들의 주요 병목 현상임을 실험적으로 증명했다.

핵심 아이디어 이해하기

딥러닝 모델의 추론 속도는 파라미터 수에 비례하며, 고해상도 영상을 실시간으로 처리하는 VLM은 연산량이 매우 많다. 특히 가정용 로봇의 안전 감시는 사고 발생 직전인 수백 밀리초(ms) 내에 판단을 내려야 하는데, 기존의 거대 VLM은 복잡한 상황을 잘 이해하지만 추론 지연 시간이 길어 실제 사고를 막기에는 너무 늦게 반응하는 한계가 있다.

이 논문은 인간의 뇌가 즉각적인 위험에 반응하는 '반사 신경'과 복잡한 상황을 분석하는 '심층 사고'로 나뉘어 있다는 점에 착안했다. 9B 규모의 가벼운 모델인 FastBrain이 초당 10프레임(10 FPS)으로 영상을 훑으며 명확한 위험(Red)이나 안전(Green)을 즉시 판별하고, 판단이 모호한 상황(Yellow)에서만 30B 이상의 거대 모델인 SlowBrain에 분석을 요청하는 계층적 구조를 채택했다.

이러한 이중 구조는 평상시에는 적은 연산량으로 실시간성을 유지하다가, 위험 징후가 보일 때만 강력한 추론 능력을 집중시킨다. 결과적으로 전체 시스템의 지연 시간은 가벼운 모델 수준으로 유지하면서도, 위험 감지의 정확도는 거대 모델의 수준으로 끌어올려 로봇이 사고를 내기 전에 멈출 수 있는 골든타임을 확보했다.

방법론

HD-Guard는 FastBrain과 SlowBrain이 비동기적으로 협업하는 계층적 스트리밍 아키텍처를 기반으로 한다. FastBrain은 MiniCPM-o 4.5 모델을 사용하여 입력 프레임 vt를 Green(안전), Yellow(주의), Red(위험) 세 가지 상태로 분류한다. [프레임 이미지 입력 → 9B 파라미터 신경망 연산 → 3개 카테고리 확률 출력 → 가장 높은 확률의 상태 결정] 과정을 거쳐 즉각적인 제어 신호를 생성한다.

상태가 Yellow로 판정되면 시스템은 즉시 샘플링 속도를 1 FPS에서 5 FPS로 높이고, SlowBrain인 Qwen3-VL에 최근 영상 윈도우 Wt를 전달한다. SlowBrain은 Chain-of-Thought(CoT) 기법을 사용하여 개체 식별, 동역학 분석, 위험 로직 검증의 3단계를 거친다. [영상 시퀀스 입력 → 단계별 텍스트 추론 생성 → 최종 위험 여부 결정 → 이진 결과 출력] 순으로 동작하며, FastBrain이 놓칠 수 있는 복잡한 물리적 인과관계를 파악한다.

최종 결정 Ct+δ는 FastBrain의 즉각적인 중단 명령과 SlowBrain의 정밀 진단 결과를 논리합(OR) 연산으로 결합하여 도출한다. [FastBrain의 Red 판정 여부 ∨ SlowBrain의 위험 판정 여부 → 최종 제어 신호 → 1이면 로봇 즉시 정지] 연산을 통해, SlowBrain이 추론하는 동안에도 FastBrain이 새로운 위험을 발견하면 즉시 개입할 수 있는 우선순위 메커니즘을 구현했다.

주요 결과

HD-Guard는 기존의 단일 거대 모델인 Qwen3-Omni 대비 2배 빠른 3.10초의 지연 시간을 기록하면서도, 가중 안전 점수(WSS)는 19.35점에서 24.94점으로 약 38% 향상시켰다. 이는 가벼운 모델의 속도와 거대 모델의 지능을 결합한 시너지 효과가 Pareto Frontier를 확장했음을 입증한다.

오픈소스 모델인 InternVL3.5-8B는 위험 감지율(HDR) 97.03%를 기록하며 GPT-5.1(75.11%)과 같은 폐쇄형 모델을 크게 앞질렀다. 그러나 대부분의 고성능 모델들은 위험하지 않은 상황에서도 로봇을 멈추는 '과잉 반응(Over-reaction)' 문제를 보였으며, 특히 소형 모델일수록 위험 수준을 과대평가하는 경향이 뚜렷하게 나타났다.

샘플링 속도에 대한 절제 실험(Ablation Study) 결과, 5 FPS가 연산 효율성과 위험 감지 성능 사이에서 최적의 균형을 제공하는 것으로 확인됐다. 10 FPS로 높일 경우 데이터 중복으로 인해 오히려 오작동(False Trigger)이 소폭 증가하는 현상이 관찰되어, 실시간 배포 시 무조건 높은 해상도나 속도보다는 적절한 샘플링 주기가 중요함을 시사했다.

기술 상세

시스템 아키텍처는 FastBrain의 실시간 필터링과 SlowBrain의 비동기 추론을 결합한 이중 경로 구조다. FastBrain은 MiniCPM-o 4.5를 백본으로 사용하며, 각 프레임의 안전 상태를 신호등 프로토콜로 정의하여 하드웨어 중단(Red) 또는 심층 분석 트리거(Yellow)를 결정한다. 이는 연산 자원을 효율적으로 분배하는 게이트웨이 역할을 수행한다.

SlowBrain은 Qwen3-VL-30B-A3B-Thinking 모델을 활용하여 공간 지각과 인과 분석을 수행한다. 프롬프트는 'Perception-Dynamics-Hazard Logic'의 3단계 구조를 강제하여, 단순히 시각적 특징만 보는 것이 아니라 물체의 상태(뜨거움, 깨지기 쉬움 등)와 로봇의 의도(이동 궤적)를 물리 법칙과 대조하여 검증한다. 이는 정적인 이미지 분석의 한계를 시계열적 인과 추론으로 극복한 사례다.

지연 시간 보상(Latency Compensation) 전략을 통해 시스템의 물리적 한계를 보완한다. HD-Guard는 평균 2.39초의 조기 반응 편향(Early Reaction Bias)을 보이는데, 이는 모델의 연산 지연 시간(약 3.10초)을 상쇄하여 결과적으로 사고 발생 전 적절한 시점에 정지 명령이 전달되도록 설계되었다. 또한, 긴 문맥(Long-context) 메모리의 부재로 인해 과거 상태를 놓치는 문제를 해결하기 위해 최근 프레임 윈도우를 최적화하여 전달한다.

한계점

현재 HD-Guard는 실시간 효율성을 위해 최근 프레임만 처리하므로, 이전 프레임에서만 관찰 가능한 물리적 단서(예: 바닥에 떨어진 얼음 결정)를 놓치는 등 장기 문맥(Long-context) 기억 능력이 부족하다.

실무 활용

가정용 서비스 로봇이나 산업용 협동 로봇의 실시간 안전 감시 레이어로 즉시 도입 가능하다. 저사양 하드웨어에서도 FastBrain을 통해 기본 안전을 확보하고, 필요시에만 클라우드나 고성능 GPU의 SlowBrain을 호출하는 하이브리드 구성이 가능하다.

주방 로봇이 전자레인지에 부적절한 물체(금속, 밀폐 용기)를 넣으려 할 때 즉시 중단
거실 청소 로봇이 바닥의 액체 유출이나 깨지기 쉬운 장애물을 감지하여 경로 변경
실버 케어 로봇이 사용자와의 충돌 가능성을 예측하여 속도 제한 및 경고 발생
로봇 팔이 날카로운 도구를 다룰 때 주변 사람의 움직임을 실시간 감시하여 안전 거리 유지

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)Embodied Agent(임바디드 에이전트)Household Safety(가정용 안전)Real-time Monitoring(실시간 모니터링)Hierarchical Architecture(계층적 구조)Dual-Brain(듀얼 브레인)