Roblox 게임 자율 주행 봇 구현을 위한 컴퓨터 비전 접근 방식 탐구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Roblox 게임 내 자율 주행을 위해 에지 검출, 깊이 추정, VLM 세그멘테이션을 시도했으나 실제 거리 측정과 마커 추적에서 기술적 한계에 직면한 사례이다.

배경

사용자가 Roblox 슈팅 게임의 훈련 단계에서 40마리의 NPC를 자동으로 처치하는 봇을 만들기 위해 다양한 컴퓨터 비전 기술을 실험했다. 현재 Florence-2를 이용한 바닥 세그멘테이션까지 성공했으나 실제 공간 거리 측정과 제어를 위한 마커 추적 단계에서 어려움을 겪고 있다.

의미 / 영향

게임 환경은 실제 세계와 물리적 특성이 달라 범용 AI 모델 적용 시 도메인 적응이 필수적이다. 단순 비전 인식을 넘어 인식된 2D 정보를 3D 제어 신호로 변환하는 기하학적 해석 능력이 자율 주행 봇 구현의 핵심 과제임이 확인됐다.

커뮤니티 반응

사용자가 시도한 다양한 최신 모델(Florence-2, Depth Anything V2)에 대해 흥미롭다는 반응이며, 2D 이미지를 3D 공간 좌표로 변환하는 역투영(Inverse Projection) 기법에 대한 논의가 예상된다.

실용적 조언

세그멘테이션된 바닥 마스크의 하단 중앙부를 기준으로 캐릭터의 현재 위치를 추정할 수 있다.
카메라의 내재 파라미터(Intrinsic Parameters)를 알 수 있다면 호모그래피(Homography) 행렬을 이용해 바닥 평면을 조감도(Top-down view)로 변환 가능하다.

섹션별 상세

사용자는 Canny 에지 검출과 Hough 변환을 통해 벽의 밀도와 소실점(Vanishing Point)을 계산하여 경로를 찾으려 했다. 단순한 복도 지형에서는 일부 작동했으나 게임 내 벽면에 적용된 그리드 텍스처가 소실점 계산에 혼선을 주어 복잡한 환경에서는 신뢰도가 낮았다. 이는 전통적인 비전 알고리즘이 인위적인 게임 그래픽의 반복 패턴에 취약함을 보여준다.

최신 깊이 추정 모델인 Depth Anything V2를 적용하여 공간의 입체감을 확보하려 시도했다. 실제 세계의 사진 데이터에서는 뛰어난 성능을 보였으나 텍스처가 단순하고 광원 효과가 제한적인 게임 환경에서는 거리감을 정확히 파악하는 데 한계가 있었다. 모델이 학습한 데이터셋과 게임 렌더링 이미지 사이의 도메인 차이가 성능 저하의 원인으로 지목됐다.

Florence-2의 REFERRING_EXPRESSION_SEGMENTATION 기능을 활용해 이동 가능한 바닥 영역을 마스킹하는 데 성공했다. 현재까지 시도한 방법 중 가장 유망한 결과물로 평가되지만 2D 마스크 이미지에서 실제 3D 공간의 거리를 산출하는 방법론이 부재한 상태이다. 사용자는 세그멘테이션된 바닥 정보를 기반으로 캐릭터를 어떻게 이동시키고 목표물과의 거리를 유지할지에 대한 기술적 조언을 구하고 있다.

이미지 분석

Screenshot
VLM이 게임 내 이동 가능한 경로를 정확히 식별하고 있음을 보여준다. 이 마스크 정보를 기반으로 봇의 이동 경로를 생성할 수 있는 기초 데이터가 확보됐다.
Florence-2 모델을 이용해 게임 화면 내 바닥 영역을 분홍색으로 세그멘테이션한 결과이다.

Screenshot
벽면의 격자 무늬가 에지로 강하게 검출되어 소실점을 찾기 어렵게 만드는 상황을 시각화했다. 전통적인 알고리즘이 게임 텍스처에 노이즈를 많이 느끼는 현상을 증명한다.
게임 내 복도 환경에서 에지 검출을 시도한 결과와 원본 이미지의 비교이다.

Screenshot
이미지 내 객체 간의 상대적인 거리는 표현되지만 실제 게임 내 유닛 단위로 변환하기에는 정밀도가 부족함을 보여준다. 특히 바닥의 평면성이 깊이 맵에서 명확히 드러나지 않는다.
Depth Anything V2를 통해 생성된 게임 화면의 깊이 맵(Depth Map) 결과이다.

실무 Takeaway

게임 환경의 인위적인 텍스처와 그리드 패턴은 전통적인 에지 기반 소실점 추출 알고리즘의 정확도를 떨어뜨린다.
실제 사진으로 학습된 깊이 추정 모델은 게임 그래픽 도메인에서 거리 측정 오차가 발생할 수 있다.
VLM을 활용한 바닥 세그멘테이션은 경로 식별에 효과적이지만 제어를 위한 3차원 좌표 변환 과정이 추가로 필요하다.

언급된 도구

Florence-2추천링크

바닥 영역 세그멘테이션 및 객체 인식

Depth Anything V2중립링크

단안 이미지 기반 깊이 추정