VLMs를 활용한 비전-언어 파이프라인 구축 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비전-언어 모델(VLMs)은 이미지와 텍스트를 통합적으로 이해하여 기존 비전 시스템의 한계를 넘는 유연한 AI 애플리케이션을 가능하게 한다. Roboflow Workflows는 이러한 VLMs를 사전 배포된 블록, API 통합, 또는 커스텀 Python 코드를 통해 파이프라인에 쉽게 추가할 수 있는 환경을 제공한다. 본 아티클은 Google Gemini를 활용해 이미지 내용을 분석하고 구조화된 JSON 데이터를 추출하여 파일 이름을 자동으로 변경하는 실전 워크플로우 구축 과정을 단계별로 안내한다. 이를 통해 개발자는 복잡한 인프라 관리 없이도 고성능 멀티모달 AI 시스템을 신속하게 구현할 수 있다.

배경

컴퓨터 비전 기본 개념, Python 프로그래밍 기초, API 연동 및 JSON 데이터 구조에 대한 이해

대상 독자

비전 AI 애플리케이션을 신속하게 구축하고 자동화하려는 ML 엔지니어 및 개발자

의미 / 영향

VLMs의 로우코드 통합은 기존에 많은 코딩이 필요했던 멀티모달 파이프라인 구축 장벽을 획기적으로 낮춘다. 이는 기업들이 이미지 데이터 정리, 자동 검수, 지능형 챗봇 등의 서비스를 더 적은 비용과 시간으로 출시할 수 있게 함을 의미한다.

섹션별 상세

VLMs는 Gemini 3, GPT-5와 같은 상용 모델과 Qwen 3, LLaMA 3와 같은 오픈소스 모델을 포함하며 시각적 인식과 언어 추론을 결합한다. 이러한 모델들은 이미지 캡셔닝, 시각적 질의응답(VQA), OCR 기반 추론 등 다양한 컴퓨터 비전 작업을 단일 워크플로우 내에서 수행할 수 있게 한다.

Roboflow Workflows는 Qwen 3-VL, SmolVLM 2, Moondream 2와 같은 오픈소스 모델을 사전 배포된 블록 형태로 제공한다. 사용자는 클릭 몇 번으로 모델을 추가하고 서버리스 API, 호스팅 API, 또는 로컬 장치 중 원하는 추론 서버를 선택하여 실행 환경을 최적화할 수 있다.

Roboflow 워크플로우 에디터에서 선택 가능한 VLM 모델 블록 목록 — ScreenshotQwen2.5-VL, SmolVLM2, Moondream2 등 Roboflow에서 사전 배포하여 즉시 사용 가능한 다양한 오픈소스 VLM 옵션을 보여준다. 각 모델별로 GPU 필요 여부와 인기 태그가 표시되어 사용자가 용도에 맞는 모델을 선택할 수 있도록 돕는다.

Qwen3-VL 블록의 세부 설정 인터페이스 — ScreenshotVLM 블록에서 프롬프트, 모델 버전, 시스템 프롬프트 등을 어떻게 구성하는지 보여준다. 입력 이미지와 텍스트 지침을 결합하여 모델의 동작을 제어하는 구체적인 파라미터 설정을 확인할 수 있다.

워크플로우 실행을 위한 추론 서버 선택 팝업창 — Screenshot서버리스 API, 전용 배포, 로컬 장치 등 워크플로우가 실행될 인프라를 선택하는 과정을 보여준다. 특히 로컬 장치 옵션을 통해 사용자의 하드웨어 자원을 활용하는 방법을 제시한다.

Google Gemini와 같은 상용 API 모델을 위한 전용 통합 블록을 지원하며, JSON Parser 블록과 결합하여 모델의 텍스트 응답을 구조화된 객체로 변환한다. JSON Parser는 필수 키 존재 여부를 검증하고 에러를 처리하여 다운스트림 로직의 안정성을 보장한다.

Custom Python Block을 사용하면 워크플로우 내에서 직접 Python 코드를 작성하여 최신 VLM API를 호출하거나 복잡한 데이터 변환 로직을 구현할 수 있다. 이는 표준 블록으로 제공되지 않는 최신 모델이나 특수한 요청 구조가 필요한 경우에 유연한 확장성을 제공한다.

python

import requests
import base64
import json

def run(self, image, api_key) -> BlockResult:
    model_id = "gemini-3-flash-preview"
    url = f"https://generativelanguage.googleapis.com/v1beta/models/{model_id}:generateContent?key={api_key}"
    payload = {
        "contents": [
            {
                "role": "user",
                "parts": [
                    {"text": "Generate a caption for this image."},
                    {
                        "inlineData": {
                            "mimeType": "image/jpeg",
                            "data": image.base64_image
                        }
                    }
                ]
            }
        ],
        "generationConfig": {
            "thinkingConfig": {
                "thinkingLevel": "MINIMAL"
            },
            "responseMimeType": "application/json",
            "responseSchema": {
                "type": "object",
                "properties": {
                    "caption": {"type": "string"}
                },
                "required": ["caption"]
            }
        }
    }
    headers = {"Content-Type": "application/json"}
    response = requests.post(url, headers=headers, json=payload)
    response.raise_for_status()
    result = response.json()
    caption_json = json.loads(
        result["candidates"][0]["content"]["parts"][0]["text"]
    )
    return {"caption" : caption_json["caption"]}

Roboflow Custom Python Block 내에서 Google Gemini API를 직접 호출하여 이미지 캡션을 생성하는 코드 예시

실전 사례로 구축된 자동 이미지 이름 변경 파이프라인은 Gemini 모델이 이미지 내용을 분석해 키워드를 생성하고 이를 파일명으로 활용한다. Roboflow Inference SDK를 사용하면 로컬 폴더의 수많은 스크린샷을 내용에 맞는 의미 있는 이름으로 자동 정리하는 자동화 스크립트를 쉽게 구현할 수 있다.

python

from inference_sdk import InferenceHTTPClient

client = InferenceHTTPClient(
    api_url="https://serverless.roboflow.com",
    api_key="YOUR_ROBOFLOW_API_KEY"
)

# 워크플로우 실행
result = client.run_workflow(
    workspace_name="your-workspace-name",
    workflow_id="filename-generation-workflow",
    images={"image": file_path},
    use_cache=True
)

# 생성된 파일명 추출
generated_name = result[0]["output"]["generated_filename"]
new_filename = generated_name + ext
os.rename(file_path, new_path)

Roboflow SDK를 사용하여 구축된 워크플로우를 호출하고 로컬 파일 이름을 자동으로 변경하는 스크립트

실무 Takeaway

Roboflow의 사전 배포된 VLM 블록을 활용하면 별도의 GPU 인프라 설정 없이도 오픈소스 멀티모달 모델을 즉시 프로덕션 워크플로우에 도입할 수 있다.
VLM의 출력을 JSON Parser 블록과 연결하여 구조화된 데이터로 변환하면, 이미지 분석 결과를 파일 시스템이나 DB 작업에 즉시 활용 가능한 자동화 파이프라인을 구축할 수 있다.
워크플로우의 실행 위치를 로컬 장치로 설정하면 보안이 중요한 데이터를 외부 클라우드에 전송하지 않고도 고성능 VLM 추론을 수행할 수 있다.

언급된 리소스

DemoQwen3-VL Workflow Demo

DemoGoogle Gemini Street Sign Interpreter Demo

DemoImage Captioning via Custom Code Demo