핵심 요약
효율적인 창고 관리를 위해 팔레트 랙의 점유 상태를 실시간으로 파악하는 것은 공간 최적화와 비용 절감에 필수적이다. 본 가이드는 Anthropic의 Claude 3.5 Sonnet과 같은 비전 언어 모델(VLM)을 활용하여 랙 슬롯과 팔레트를 감지하고, 점유 여부를 논리적으로 판단하는 자동화 워크플로 구축 과정을 다룬다. 시각적 감지와 구조적 추론 단계를 분리함으로써 대시보드나 관리 시스템에 즉시 통합 가능한 기계 판독형 JSON 데이터를 생성하는 방법이 핵심이다. 이를 통해 수동 점검의 번거로움을 줄이고 데이터 기반의 창고 운영이 가능해진다.
배경
컴퓨터 비전 기초, VLM(Vision-Language Model) 개념, JSON 데이터 구조, 기본적인 프롬프트 엔지니어링
대상 독자
창고 자동화 및 물류 시스템 개발자, 컴퓨터 비전 엔지니어
의미 / 영향
VLM을 활용한 시각적 추론은 기존의 단순 객체 탐지 모델보다 복잡한 상황 판단에 유리하며, 물류 현장의 디지털 트랜스포메이션을 가속화할 것이다. 특히 고가의 센서 없이 일반 카메라와 AI 모델만으로 정밀한 재고 관리가 가능해짐에 따라 중소 규모 물류 센터의 도입 장벽이 낮아질 것으로 예상된다.
섹션별 상세
이미지 분석

원본 이미지에서 랙 슬롯과 팔레트가 어떻게 구분되는지 시각적으로 보여준다. 시스템이 식별해야 할 물리적 객체들의 범위를 명확히 제시한다.
창고 랙의 원본 이미지와 객체 감지 어노테이션이 적용된 이미지의 비교이다.

입력 데이터부터 VLM 감지, 추론, JSON 파싱에 이르는 전체 워크플로 구조를 한눈에 파악할 수 있다. 각 단계의 연결 관계를 명확히 설명한다.
Roboflow Workflows에서 구성된 창고 용량 모니터링 전체 파이프라인 다이어그램이다.

모델에게 랙 슬롯과 팔레트를 감지하도록 지시하는 구체적인 프롬프트 예시를 포함한다. 실제 구현 시 필요한 파라미터 설정을 확인할 수 있다.
Claude VLM 블록의 객체 탐지 프롬프트 및 설정 화면 스크린샷이다.

VLM의 비정형 텍스트 응답을 기계가 읽을 수 있는 좌표와 클래스 정보로 변환하는 과정을 보여준다. 데이터 구조화의 핵심 단계를 시각화한다.
VLM의 출력을 정규화된 감지 데이터로 변환하는 Detector 블록 설정 화면이다.

bay_id와 slots 정보를 추출하여 최종 데이터로 확정하는 과정을 보여준다. 구조화된 데이터 생성을 위한 마지막 처리 단계를 설명한다.
최종 출력에서 필요한 필드를 추출하는 JSON Parser 블록 설정이다.

실제 테스트 이미지에 경계 상자가 오버레이된 결과로, 빈 슬롯(빨간색 상자)까지 정확히 식별되었음을 증명한다. 시스템의 실제 작동 정확도를 시각적으로 확인시켜준다.
11개의 팔레트와 12개의 랙 슬롯이 정확히 감지된 최종 시각화 결과물이다.
실무 Takeaway
- 객체 감지와 상태 추론 단계를 분리하여 VLM의 환각(Hallucination) 현상을 억제하고 데이터 신뢰성을 높인다.
- 팔레트 중심점 기반의 기하학적 판단 규칙을 프롬프트에 명시하여 점유 판정의 정확도를 개선한다.
- 추론 결과를 구조화된 JSON으로 출력하여 별도의 후처리 없이 대시보드나 WMS에 즉시 통합한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료