핵심 요약
비전-언어 모델(VLMs)은 이미지와 텍스트를 통합적으로 이해하여 기존 비전 시스템의 한계를 넘는 유연한 AI 애플리케이션을 가능하게 한다. Roboflow Workflows는 이러한 VLMs를 사전 배포된 블록, API 통합, 또는 커스텀 Python 코드를 통해 파이프라인에 쉽게 추가할 수 있는 환경을 제공한다. 본 아티클은 Google Gemini를 활용해 이미지 내용을 분석하고 구조화된 JSON 데이터를 추출하여 파일 이름을 자동으로 변경하는 실전 워크플로우 구축 과정을 단계별로 안내한다. 이를 통해 개발자는 복잡한 인프라 관리 없이도 고성능 멀티모달 AI 시스템을 신속하게 구현할 수 있다.
배경
컴퓨터 비전 기본 개념, Python 프로그래밍 기초, API 연동 및 JSON 데이터 구조에 대한 이해
대상 독자
비전 AI 애플리케이션을 신속하게 구축하고 자동화하려는 ML 엔지니어 및 개발자
의미 / 영향
VLMs의 로우코드 통합은 기존에 많은 코딩이 필요했던 멀티모달 파이프라인 구축 장벽을 획기적으로 낮춘다. 이는 기업들이 이미지 데이터 정리, 자동 검수, 지능형 챗봇 등의 서비스를 더 적은 비용과 시간으로 출시할 수 있게 함을 의미한다.
섹션별 상세



import requests
import base64
import json
def run(self, image, api_key) -> BlockResult:
model_id = "gemini-3-flash-preview"
url = f"https://generativelanguage.googleapis.com/v1beta/models/{model_id}:generateContent?key={api_key}"
payload = {
"contents": [
{
"role": "user",
"parts": [
{"text": "Generate a caption for this image."},
{
"inlineData": {
"mimeType": "image/jpeg",
"data": image.base64_image
}
}
]
}
],
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "MINIMAL"
},
"responseMimeType": "application/json",
"responseSchema": {
"type": "object",
"properties": {
"caption": {"type": "string"}
},
"required": ["caption"]
}
}
}
headers = {"Content-Type": "application/json"}
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
result = response.json()
caption_json = json.loads(
result["candidates"][0]["content"]["parts"][0]["text"]
)
return {"caption" : caption_json["caption"]}Roboflow Custom Python Block 내에서 Google Gemini API를 직접 호출하여 이미지 캡션을 생성하는 코드 예시
from inference_sdk import InferenceHTTPClient
client = InferenceHTTPClient(
api_url="https://serverless.roboflow.com",
api_key="YOUR_ROBOFLOW_API_KEY"
)
# 워크플로우 실행
result = client.run_workflow(
workspace_name="your-workspace-name",
workflow_id="filename-generation-workflow",
images={"image": file_path},
use_cache=True
)
# 생성된 파일명 추출
generated_name = result[0]["output"]["generated_filename"]
new_filename = generated_name + ext
os.rename(file_path, new_path)Roboflow SDK를 사용하여 구축된 워크플로우를 호출하고 로컬 파일 이름을 자동으로 변경하는 스크립트
실무 Takeaway
- Roboflow의 사전 배포된 VLM 블록을 활용하면 별도의 GPU 인프라 설정 없이도 오픈소스 멀티모달 모델을 즉시 프로덕션 워크플로우에 도입할 수 있다.
- VLM의 출력을 JSON Parser 블록과 연결하여 구조화된 데이터로 변환하면, 이미지 분석 결과를 파일 시스템이나 DB 작업에 즉시 활용 가능한 자동화 파이프라인을 구축할 수 있다.
- 워크플로우의 실행 위치를 로컬 장치로 설정하면 보안이 중요한 데이터를 외부 클라우드에 전송하지 않고도 고성능 VLM 추론을 수행할 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.