Florence-2 VLM을 활용한 Roboflow 제로샷 오토 레이블링 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

컴퓨터 비전 프로젝트에서 가장 시간이 많이 소요되는 수동 레이블링 작업을 Vision-Language Model(VLM)로 자동화하는 방법론을 다룬다. Microsoft의 Florence-2 모델을 Roboflow Workflows에 통합하여 텍스트 프롬프트만으로 객체를 탐지하고 레이블을 생성하는 제로샷 워크플로우를 구축한다. 생성된 대규모 메타데이터를 Python 스크립트를 통해 COCO 형식으로 변환하고, 이를 활용해 실시간 추론에 최적화된 RF-DETR 모델을 학습시키는 과정을 단계별로 설명한다. 결과적으로 느리고 무거운 파운데이션 모델의 지식을 빠르고 가벼운 프로덕션 모델로 전이하는 효율적인 파이프라인을 완성한다.

배경

Python 프로그래밍 기초, Docker 및 NVIDIA Container Toolkit 설치 환경, 객체 탐지(Object Detection) 기본 개념, Roboflow 계정 및 기본 사용법

대상 독자

컴퓨터 비전 데이터셋 구축 비용을 절감하고 모델 배포 속도를 높이려는 ML 엔지니어 및 개발자

의미 / 영향

이 워크플로우는 데이터 레이블링의 병목 현상을 제거하여 소규모 팀도 대규모 고품질 데이터셋을 빠르게 확보할 수 있게 한다. 특히 특정 도메인에 특화된 경량 모델을 학습시키기 위해 거대 모델의 지식을 활용하는 '모델 증류' 관점의 실무적 접근법을 제시한다.

섹션별 상세

VLM은 이미지와 텍스트의 관계를 수십억 개의 데이터를 통해 학습하여 별도의 학습 데이터 없이도 '제로샷'으로 객체를 식별할 수 있는 능력을 갖췄다.

Microsoft의 Florence-2는 객체 탐지 작업에 특화된 오픈소스 VLM으로, 클래스 이름 리스트를 입력받아 이미지 내 정확한 좌표를 반환하는 고성능 오토 레이블러 역할을 수행한다.

Florence-2 모델이 이미지 내의 인물을 'humans' 클래스로 정확히 탐지하여 바운딩 박스를 표시한 예시이다. — Screenshot제로샷 객체 탐지의 실제 결과물을 보여준다. 모델이 별도의 학습 없이 텍스트 프롬프트만으로 객체의 위치를 정확히 식별할 수 있음을 증명하며, 오토 레이블링의 신뢰성을 시각적으로 확인시켜 준다.

Roboflow Workflows를 통해 Florence-2 모델 블록과 'VLM as Detector' 블록을 연결하여 모델의 추론 결과를 구조화된 탐지 데이터로 변환하는 논리 체인을 구성한다.

Florence-2를 활용한 오토 레이블링 워크플로우의 4단계 프로세스 다이어그램이다. — Diagram로직 구축, 배치 처리, 메타데이터 변환, 레이블 재임포트로 이어지는 전체 파이프라인을 시각화했다. 각 단계가 어떻게 연결되어 최종적으로 학습 가능한 데이터셋이 되는지 구조적 이해를 돕는다.

로컬 인프런스 서버를 Docker 컨테이너로 실행하여 데이터 보안을 유지하면서 로컬 GPU 자원을 활용해 대량의 이미지를 배치 프로세싱으로 처리한다.

배치 처리 결과로 생성된 개별 JSON 파일들을 Python 스크립트로 통합하여 표준 COCO 형식의 주석 파일로 변환함으로써 학습 준비를 마친다.

python

def convert_to_coco(input_folder, output_folder, filename="annotations.coco.json"):
    # ... (중략)
    for file_path in Path(input_folder).glob("*.json"):
        with open(file_path, 'r') as f:
            data = json.load(f)
        
        image_filename = file_path.stem + ".jpg"
        width = data["output_6"]["image"]["width"]
        height = data["output_6"]["image"]["height"]
        
        bbox_data = json.loads(data["output_9"])
        bboxes = bbox_data.get("bboxes", [])
        labels = bbox_data.get("bboxes_labels", [])
        
        for bbox, label in zip(bboxes, labels):
            if label == "humans":
                x1, y1, x2, y2 = bbox
                w = x2 - x1
                h = y2 - y1
                coco_output["annotations"].append({
                    "id": annotation_id,
                    "image_id": image_id,
                    "category_id": 0,
                    "bbox": [float(x1), float(y1), float(w), float(h)],
                    "area": float(w * h),
                    "iscrowd": 0
                })
                annotation_id += 1
        image_id += 1

Florence-2의 원시 JSON 출력을 표준 COCO 형식으로 변환하는 핵심 로직

VLM이 생성한 '골드 표준' 데이터셋을 사용하여 실시간 성능이 뛰어난 RF-DETR 모델을 학습시킴으로써 프로덕션 환경에 적합한 고속 모델을 확보한다.

실무 Takeaway

Florence-2와 같은 VLM을 오토 레이블러로 활용하면 수동 레이블링에 소요되는 시간을 며칠에서 몇 분 단위로 단축하여 프로젝트 속도를 획기적으로 높일 수 있다.
VLM의 추론 결과를 COCO 형식으로 변환하는 파이프라인을 구축함으로써 파운데이션 모델의 지식을 경량화된 RF-DETR 모델로 효과적으로 전이할 수 있다.
Roboflow의 로컬 인프런스 서버와 배치 프로세싱 기능을 결합하면 대규모 데이터셋에 대한 자동 레이블링 작업을 인프라 관리 부담 없이 수행 가능하다.

언급된 리소스

문서Florence-2 Workflows Guide

문서Roboflow Inference Server Docker