핵심 요약
Roblox 게임 내 자율 주행을 위해 에지 검출, 깊이 추정, VLM 세그멘테이션을 시도했으나 실제 거리 측정과 마커 추적에서 기술적 한계에 직면한 사례이다.
배경
사용자가 Roblox 슈팅 게임의 훈련 단계에서 40마리의 NPC를 자동으로 처치하는 봇을 만들기 위해 다양한 컴퓨터 비전 기술을 실험했다. 현재 Florence-2를 이용한 바닥 세그멘테이션까지 성공했으나 실제 공간 거리 측정과 제어를 위한 마커 추적 단계에서 어려움을 겪고 있다.
의미 / 영향
게임 환경은 실제 세계와 물리적 특성이 달라 범용 AI 모델 적용 시 도메인 적응이 필수적이다. 단순 비전 인식을 넘어 인식된 2D 정보를 3D 제어 신호로 변환하는 기하학적 해석 능력이 자율 주행 봇 구현의 핵심 과제임이 확인됐다.
커뮤니티 반응
사용자가 시도한 다양한 최신 모델(Florence-2, Depth Anything V2)에 대해 흥미롭다는 반응이며, 2D 이미지를 3D 공간 좌표로 변환하는 역투영(Inverse Projection) 기법에 대한 논의가 예상된다.
실용적 조언
- 세그멘테이션된 바닥 마스크의 하단 중앙부를 기준으로 캐릭터의 현재 위치를 추정할 수 있다.
- 카메라의 내재 파라미터(Intrinsic Parameters)를 알 수 있다면 호모그래피(Homography) 행렬을 이용해 바닥 평면을 조감도(Top-down view)로 변환 가능하다.
섹션별 상세
이미지 분석

VLM이 게임 내 이동 가능한 경로를 정확히 식별하고 있음을 보여준다. 이 마스크 정보를 기반으로 봇의 이동 경로를 생성할 수 있는 기초 데이터가 확보됐다.
Florence-2 모델을 이용해 게임 화면 내 바닥 영역을 분홍색으로 세그멘테이션한 결과이다.

벽면의 격자 무늬가 에지로 강하게 검출되어 소실점을 찾기 어렵게 만드는 상황을 시각화했다. 전통적인 알고리즘이 게임 텍스처에 노이즈를 많이 느끼는 현상을 증명한다.
게임 내 복도 환경에서 에지 검출을 시도한 결과와 원본 이미지의 비교이다.

이미지 내 객체 간의 상대적인 거리는 표현되지만 실제 게임 내 유닛 단위로 변환하기에는 정밀도가 부족함을 보여준다. 특히 바닥의 평면성이 깊이 맵에서 명확히 드러나지 않는다.
Depth Anything V2를 통해 생성된 게임 화면의 깊이 맵(Depth Map) 결과이다.
실무 Takeaway
- 게임 환경의 인위적인 텍스처와 그리드 패턴은 전통적인 에지 기반 소실점 추출 알고리즘의 정확도를 떨어뜨린다.
- 실제 사진으로 학습된 깊이 추정 모델은 게임 그래픽 도메인에서 거리 측정 오차가 발생할 수 있다.
- VLM을 활용한 바닥 세그멘테이션은 경로 식별에 효과적이지만 제어를 위한 3차원 좌표 변환 과정이 추가로 필요하다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료