MIT 연구진, 생성형 AI와 고전적 알고리즘을 결합한 로봇 계획 수립 시스템 개발

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 대형 언어 모델은 시각 정보 처리의 한계가 있고 시각-언어 모델(VLM)은 장기적인 논리 추론에 취약하다. MIT 연구진은 이를 해결하기 위해 VLM의 이미지 이해 능력과 고전적 계획 수립기(Formal Solver)의 정밀함을 결합한 'VLMFP' 프레임워크를 구축했다. 이 시스템은 이미지를 분석해 행동을 시뮬레이션하고 이를 표준 프로그래밍 언어인 PDDL로 변환하여 최적의 경로를 생성한다. 실험 결과 기존 방식보다 2배 높은 약 70%의 작업 성공률을 기록하며 로봇 내비게이션 및 조립 분야의 혁신 가능성을 입증했다.

배경

VLM(Vision-Language Model)의 기본 개념, PDDL(Planning Domain Definition Language)에 대한 이해, 로봇 계획 수립(Robot Planning) 알고리즘 기초

대상 독자

로보틱스 및 AI 계획 수립 시스템 개발자

의미 / 영향

이 연구는 생성형 AI의 창의성과 고전적 알고리즘의 정확성을 결합하는 새로운 패러다임이다. 로봇이 복잡하고 가변적인 실제 환경에서 스스로 판단하고 행동하는 능력을 향상시켜 스마트 팩토리나 자율 주행 기술의 신뢰도를 높일 것으로 기대된다.

섹션별 상세

VLMFP 시스템은 SimVLM과 GenVLM이라는 두 개의 특화된 모델로 구성된다. SimVLM은 입력된 이미지에서 시나리오를 파악하고 자연어로 행동 시퀀스를 시뮬레이션하는 역할을 수행한다. 이후 더 큰 모델인 GenVLM이 이 시뮬레이션 데이터를 바탕으로 고전적 계획 수립 언어인 PDDL 파일을 생성한다.

생성된 PDDL 파일은 기존의 표준 계획 수립 소프트웨어(Classical Solver)에 입력되어 단계별 실행 계획으로 변환된다. GenVLM은 솔버의 결과와 시뮬레이터의 결과를 비교하며 PDDL 파일을 반복적으로 수정하여 정확도를 높인다. 이 과정은 생성형 AI의 유연성과 논리적 솔버의 신뢰성을 동시에 확보하게 해준다.

VLMFP는 학습 과정에서 보지 못한 새로운 환경이나 규칙 변화에도 유연하게 대응할 수 있도록 설계되었다. 2D 그리드 월드 테스트에서 약 70%의 성공률을 보였으며 이는 기존 베이스라인 모델의 30%를 크게 상회하는 수치이다. 특히 다중 로봇 협업 및 로봇 조립과 같은 3차원 작업에서는 80% 이상의 높은 성공률을 기록했다.

로봇 계획 수립 성능 평가를 위해 사용된 6가지 2D 그리드 월드 환경의 모습이다. — Screenshot장애물과 목표 지점이 포함된 다양한 미로 환경을 보여주며, 오른쪽에는 숨겨진 함정이 있는 복잡한 시나리오가 포함되어 있다. 연구진은 이 환경에서 VLMFP 시스템이 기존 방식보다 2배 높은 성공률로 목표를 달성하는 계획을 생성함을 확인했다.

이 기술은 자율 주행이나 공장 자동화와 같이 조건이 수시로 변하는 실제 환경에 적합하다. 연구진은 향후 더 복잡한 시나리오를 처리하고 VLM의 고질적인 문제인 환각(Hallucination) 현상을 줄이는 방향으로 연구를 지속할 계획이다.

실무 Takeaway

VLM의 시각 인지 능력과 PDDL 솔버의 논리적 엄밀함을 결합하면 복잡한 로봇 작업의 성공률을 획기적으로 높일 수 있다.
SimVLM을 통해 행동을 먼저 시뮬레이션하고 GenVLM으로 코드를 생성하는 2단계 접근 방식이 직접적인 계획 생성보다 오류가 적다.
PDDL과 같은 표준 언어를 매개체로 사용함으로써 모델이 학습하지 않은 새로운 도메인이나 환경 변화에도 높은 일반화 성능을 유지할 수 있다.

언급된 리소스

논문Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning