Autoregressive LLM을 능가하는 Masked Diffusion Language Models(MDLM)의 월드 모델링 성능

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MDLM은 임의 순서 디노이징 학습을 통해 AR 모델의 순차적 생성 한계를 극복하고, 월드 모델링 작업에서 더 높은 전역적 일관성과 작업 성공률을 달성했다.

배경

Autoregressive LLM 기반 월드 모델이 가진 전역적 일관성 부족 문제를 해결하기 위해, 임의 순서 디노이징 학습을 사용하는 Masked Diffusion Language Models(MDLM)의 성능을 검증한 연구가 공유되었다.

의미 / 영향

MDLM은 AR 모델의 순차적 생성 한계를 극복하여 복잡한 환경에서의 월드 모델링 성능을 크게 개선할 수 있다. 특히 MDLM으로 생성된 데이터를 활용한 GRPO 학습은 제로샷 전이 성능을 높이는 효과적인 전략임이 확인되었다.

섹션별 상세

Autoregressive(AR) 모델은 다음 상태를 왼쪽에서 오른쪽으로만 생성하여 전역적인 의존성을 반영하지 못한다. 이로 인해 툴 스키마나 상태 필드와 같은 전역적 제약 조건을 무시하고 일관성 없는 결과를 생성하는 문제가 발생한다. 이러한 구조적 한계는 복잡한 환경을 모델링하는 데 있어 큰 제약으로 작용하며, 전역적 일관성을 확보하기 위해서는 순차적 생성 방식을 탈피한 새로운 접근이 필요하다.

MDLM은 임의 순서 디노이징(any-order denoising) 학습을 통해 모든 조건부 방향을 동시에 학습한다. 특정 순서에 의존하지 않고 전역적인 정보를 활용하여 토큰을 예측함으로써 AR 모델의 순차적 생성 한계를 극복한다. 이 방식은 모델이 전역적 의존성을 더 잘 학습하게 하여 생성된 결과의 일관성을 높이고, 복잡한 환경에서의 상태 변화를 더 정확하게 예측할 수 있게 한다.

실험 결과, fine-tuned MDLM인 SDAR-8B와 WeDLM-8B는 파라미터 수가 4배 더 큰 AR 모델을 능가하는 성능을 보였다. BLEU-1, ROUGE-L, MAUVE 지표에서 더 높은 점수를 기록했으며, Self-BLEU 감소와 Distinct-N 증가를 통해 prefix mode collapse가 현저히 줄어들었음이 확인되었다. 이는 MDLM이 더 다양하고 일관된 출력을 생성함을 입증한다.

MDLM으로 생성된 롤아웃 데이터를 활용하여 GRPO 학습을 진행한 결과, ScienceWorld, ALFWorld, AppWorld 등에서 작업 성공률이 최대 15% 향상되었다. 1.2B에서 7B 규모의 LFM2.5, Qwen3, Mistral 백본 모델에서 제로샷 전이 성능이 개선된 것이다. 이는 MDLM 기반의 데이터 생성이 강화학습 정렬 과정에서 더 효과적인 학습 신호를 제공함을 시사한다.