Vision AI를 활용한 창고 랙 점유율 실시간 모니터링 및 용량 계획

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

창고 관리의 효율성을 높이기 위해 Vision-Language Model(VLM)을 활용한 실시간 랙 점유율 모니터링 시스템을 구축한다. Roboflow Workflows를 기반으로 Claude 모델이 랙 슬롯과 팔레트를 각각 감지한 후, 공간적 관계를 분석하여 각 슬롯의 비어있음 또는 점유 상태를 판단한다. 이 과정은 단순한 이미지 분석을 넘어 정형화된 JSON 데이터를 생성하므로 대시보드나 창고 관리 시스템(WMS)에 즉시 통합 가능하다. 수동 점검의 번거로움을 줄이고 데이터 기반의 창고 용량 계획을 실현한다.

배경

Roboflow 계정 및 Workflows 사용법, VLM(Claude 3.5 Sonnet 등) API 접근 권한, 기본적인 JSON 데이터 구조에 대한 이해

대상 독자

창고 자동화 및 물류 시스템을 개발하는 AI 엔지니어 및 운영 관리자

의미 / 영향

이 기술은 수동 재고 실사 비용을 획기적으로 낮추고 창고 공간 활용도를 실시간으로 가시화합니다. 특히 고가의 센서 설치 없이 기존 CCTV 인프라와 VLM만으로 정교한 용량 계획이 가능해져 중소규모 물류 센터의 디지털 전환을 가속화할 수 있습니다.

섹션별 상세

창고 랙 모니터링의 핵심은 랙 슬롯(Rack Slot)과 팔레트(Pallet)를 별개의 객체로 정확히 인식하는 것이다. 단순히 점유 여부를 한 번에 판단하는 대신, 고성능 VLM인 Claude 모델을 사용하여 모든 가시적인 슬롯과 팔레트의 위치를 바운딩 박스로 먼저 추출한다. 이 방식은 모델이 장면의 기하학적 구조를 명확히 이해하게 하여 추후 논리적 판단의 정확도를 높인다.

객체 감지 단계에서는 비어 있는 슬롯까지 포함하여 모든 랙 구조를 파악하도록 프롬프트를 구성한다. 팔레트가 없는 공간도 유효한 저장 단위로 인식하게 하여, 이후 단계에서 '비어 있음' 상태를 확정할 수 있는 근거를 마련한다. 이는 단순히 물체가 있는 곳만 찾는 기존 방식보다 창고 가용 용량을 계산하는 데 훨씬 유리하다.

text

You are an object detection system for warehouse racks. Detect and localize every rack_slot visible in the image, including both occupied and empty slots. A rack_slot is a fixed rectangular storage space defined by the rack beams and uprights, and it must be detected even if it contains no pallet, box, or object. Do not skip empty slots. Also detect pallets separately.

랙 슬롯과 팔레트를 각각 감지하기 위한 Claude VLM 객체 탐지 프롬프트

창고 랙의 원본 이미지와 팔레트 및 슬롯이 감지된 어노테이션 이미지의 비교 — Screenshot원본 이미지에서 비어 있는 슬롯을 포함하여 모든 랙 구조와 팔레트가 바운딩 박스로 정확히 식별됨을 보여준다. 특히 하단 중앙의 빈 슬롯이 'rack_slot'으로 정상 감지되는 것이 핵심이다.

Claude VLM 블록의 객체 탐지 작업 설정 및 프롬프트 구성 화면 — ScreenshotAnthropic Claude 모델을 객체 탐지(object-detection) 모드로 설정하고, 랙 슬롯과 팔레트를 구분하여 감지하도록 지시하는 구체적인 프롬프트 설정을 보여준다.

감지된 데이터는 'VLM as Detector' 블록을 통해 정형화된 좌표 데이터로 변환되며, 이후 시각화 블록을 거쳐 검증 과정을 거친다. 바운딩 박스 오버레이를 통해 모델이 랙 구조와 물체를 올바르게 정렬했는지 직관적으로 확인한다. 이 시각적 피드백은 시스템 배포 전 모델의 성능을 튜닝하고 신뢰성을 확보하는 데 필수적이다.

Roboflow Workflows에서 구성된 전체 창고 용량 모니터링 파이프라인 구조 — Diagram입력 이미지부터 Claude VLM을 통한 감지, 시각화, 논리 추론, JSON 파싱으로 이어지는 전체 워크플로우 단계를 시각화한다. 각 블록 간의 데이터 흐름을 한눈에 파악할 수 있다.

VLM의 출력을 정규화된 감지 데이터로 변환하는 VLM as Detector 블록 설정 — ScreenshotVLM이 생성한 텍스트 기반 응답을 시스템이 읽을 수 있는 바운딩 박스 좌표와 클래스 라벨로 변환하는 과정을 설정하는 화면이다. 데이터 정형화의 핵심 단계를 설명한다.

최종 추론 단계에서는 두 번째 VLM 블록이 감지된 슬롯과 팔레트의 공간적 관계를 논리적으로 분석한다. 팔레트의 중심점이 특정 슬롯의 바운딩 박스 내부에 위치하는지를 계산하여 'occupied' 또는 'empty' 상태를 결정하며, 결과는 엄격한 JSON 스키마에 맞춰 출력한다. 모델이 직접 점유 여부를 찍는 것이 아니라 기하학적 규칙에 기반해 판단하므로 결과의 일관성이 보장된다.

json

{ "output_schema": "{\"type\":\"object\",\"properties\":{\"bay_id\":{\"type\":\"string\"},\"slots\":{\"type\":\"array\",\"items\":{\"type\":\"object\",\"properties\":{\"slot_id\":{\"type\":\"string\"},\"occupancy\":{\"type\":\"string\",\"enum\":[\"occupied\",\"empty\"]}},\"required\":[\"slot_id\",\"occupancy\"]}},\"required\":[\"bay_id\",\"slots\"]}" }

점유 상태 추론 결과를 정형화된 데이터로 받기 위한 JSON 스키마 설정

주기적인 이미지 스냅샷을 처리하도록 설계되어 연속적인 비디오 스트림 없이도 효율적인 운영이 가능하다. 대규모 창고 환경에서는 각 베이(Bay)별로 파라미터화하여 확장할 수 있으며, WMS와의 연동을 통해 실시간 재고 보충 및 공간 최적화 알림을 자동화한다. 이는 인적 오류를 줄이고 창고 회전율을 극대화하는 결과로 이어진다.

json

[ { "output_1": { "bay_id": "BAY-001", "slots": [ { "slot_id": "slot_1", "occupancy": "occupied" }, { "slot_id": "slot_11", "occupancy": "empty" } ], "error_status": false } } ]

워크플로우 실행 후 출력되는 최종 점유 상태 JSON 데이터 예시

실무 Takeaway

객체 감지와 논리적 추론 단계를 분리하여 VLM을 구성하면 복잡한 산업 환경에서도 오탐을 줄이고 데이터의 신뢰성을 높일 수 있다.
팔레트의 중심 좌표가 슬롯 영역 내에 있는지 판단하는 기하학적 규칙을 적용함으로써, 단순 이미지 분류보다 훨씬 정교한 점유 상태 판별이 가능하다.
VLM의 출력을 JSON 스키마로 강제함으로써 별도의 후처리 없이도 기존 창고 관리 시스템(WMS) 대시보드에 즉시 데이터를 전송할 수 있다.

언급된 리소스

튜토리얼Real-Time Capacity Planning for Warehouse Rack Occupancy