시각 언어 모델(VLM)을 활용한 데이터 어노테이션 확장으로 물리적 AI 시스템 강화

핵심 요약

건설 및 물류 산업의 인력 부족 문제를 해결하기 위해 자율 주행 시스템 도입이 시급하지만, 학습을 위한 방대한 영상 데이터의 수동 어노테이션 비용이 큰 걸림돌이다. 스타트업 Bedrock Robotics는 AWS 생성형 AI 혁신 센터와 협력하여 시각 언어 모델(VLM)을 활용한 자동 데이터 라벨링 파이프라인을 구축했다. 프롬프트 엔지니어링과 모델 최적화를 통해 도구 식별 정확도를 기존 34%에서 70%로 향상시켰으며, 이를 통해 수백만 시간의 건설 현장 영상을 효율적으로 학습 자산화했다. 결과적으로 자율 주행 굴착기 등의 배포 속도를 높이고 운영 비용을 절감하는 성과를 거두었다.

배경

VLM(Vision-Language Model) 기본 개념, 프롬프트 엔지니어링 기초, 컴퓨터 비전 데이터셋 구조

대상 독자

자율 주행 시스템 개발자, 물리적 AI 엔지니어, 데이터 어노테이션 자동화에 관심 있는 MLOps 전문가

의미 / 영향

VLM을 활용한 자동 어노테이션은 건설, 제조 등 물리적 환경에서 AI 도입 비용을 획기적으로 낮춘다. 이는 인력 부족 문제를 겪는 산업군에서 자율 주행 기술의 상용화를 가속화하는 표준 프레임워크가 될 것이다.

섹션별 상세

건설 현장의 자율 주행 시스템 구축을 위해서는 굴착기 캐빈에서 촬영된 수백만 시간의 영상 데이터를 라벨링하는 과정이 필수적이지만, 수동 작업은 비용과 시간 면에서 불가능에 가깝다. Bedrock Robotics는 이 병목 현상을 해결하기 위해 자연어 쿼리에 반응하고 이미지와 영상을 해석하는 VLM을 도입하여 대규모 데이터 준비 프로세스를 자동화했다. 이러한 자동화는 데이터 준비 비용을 낮추고 모델 배포 속도를 높여 고객에게 AI 기반 서비스를 더 빠르게 제공할 수 있게 한다.

일반적인 상용 VLM은 웹 이미지로 학습되어 건설 현장의 특수한 각도, 먼지나 날씨로 인한 저시정 상태, 그리고 굴착용 버킷과 참호용 버킷 같은 유사 도구의 미세한 차이를 구분하는 데 어려움을 겪었다. 이를 해결하기 위해 Amazon Bedrock에서 제공하는 다양한 모델을 평가하고, 도구에 대한 상세한 시각적 묘사와 혼동하기 쉬운 쌍에 대한 가이드를 포함한 프롬프트 엔지니어링을 적용했다. 단계별 분석 지침을 포함한 프롬프트 최적화는 모델이 도메인 지식을 갖추도록 유도했다.

최적화된 프롬프트와 모델 선택을 통해 테스트 데이터셋 130개 영상에서 도구 분류 정확도가 초기 34%에서 70%로 대폭 개선되었으며, 영상 처리 비용은 시간당 10달러 수준으로 유지되었다. 이러한 성과는 자율 주행 장비의 학습 주기를 단축하고 배포 시간을 줄이는 동시에, 운영 요구 사항에 따라 진화할 수 있는 확장 가능한 어노테이션 파이프라인을 제공한다. 이는 물리적 AI 분야에서 데이터 준비 병목을 해결하는 것이 실제 비즈니스 가치 창출의 핵심임을 입증한다.

이미지 분석

Screenshot
VLM이 분석해야 하는 실제 건설 현장의 비정형 영상 데이터를 보여준다. 장비의 시점(Cabin view)에서 촬영된 다양한 작업 환경과 도구 사용 모습을 통해 자동 어노테이션이 필요한 데이터의 복잡성을 나타낸다.
굴착기 작업 영상에서 추출된 대규모 굴착(Mass Excavation), 정지 작업(Grading), 철거(Demolition) 장면의 분할 화면이다.

실무 Takeaway

도메인 특화 데이터인 건설 현장 영상에 일반 VLM을 적용할 때 프롬프트 엔지니어링만으로도 정확도를 34%에서 70%로 두 배 이상 향상시켰다.
영상 처리 비용을 시간당 10달러 수준으로 관리하면서 수백만 시간의 비정형 데이터를 전략적 학습 자산으로 전환하는 확장 가능한 파이프라인을 구축했다.
물리적 AI(Physical AI) 분야에서 데이터 준비 병목을 해결하는 것이 자율 주행 시스템의 실제 배포 속도를 결정짓는 핵심 요소임이 확인됐다.

언급된 리소스

DemoBedrock Robotics

문서AWS Physical AI Fellowship