DARE: 확산 대형 언어 모델 정렬 및 강화학습 실행 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

확산 대형 언어 모델(dLLM)은 기존 순차적 생성 방식의 한계를 넘는 대안으로 주목받고 있으나, 연구 인프라가 파편화되어 알고리즘 간의 공정한 비교와 재현이 어려웠다. DARE는 서로 다른 dLLM 아키텍처와 강화학습 알고리즘을 하나의 표준화된 환경으로 통합하여 연구 효율성을 극대화하고 실질적인 성능 향상을 가능하게 한다.

왜 중요한가

핵심 기여

dLLM 전용 통합 사후 학습 프레임워크 DARE 제안

Masked Diffusion(MDLM)과 Block Diffusion(BDLM) 모델군을 모두 지원하는 단일 오픈소스 스택을 구축하여 사후 학습 및 평가 과정을 표준화했다.

광범위한 정렬 및 강화학습 알고리즘 통합

SFT, PEFT뿐만 아니라 VRPO, Coupled-GRPO, MDPO 등 dLLM에 특화된 다양한 강화학습 알고리즘을 공유 파이프라인 내에 통합하여 공정한 성능 비교 환경을 제공한다.

모델 아키텍처별 맞춤형 시스템 최적화 구현

MDLM을 위한 Fast-dLLM 및 KV-캐시 재사용, BDLM을 위한 LMDeploy 및 SGLang 통합을 통해 강화학습 파이프라인 속도를 최대 14배까지 가속화했다.

dLLM 인식형 벤치마크 평가 플랫폼 확장

OpenCompass를 확장하여 dLLM의 특성을 고려한 평가 지표와 벤치마크를 통합함으로써 학습부터 검증까지의 워크플로우를 일원화했다.

핵심 아이디어 이해하기

기존 대형 언어 모델(LLM)은 토큰을 하나씩 순서대로 예측하는 Autoregressive 방식을 사용하며, 이에 최적화된 강화학습 프레임워크들은 시퀀스의 로그 확률(Log-probability)을 계산하는 데 집중한다. 그러나 확산 대형 언어 모델(dLLM)은 노이즈가 섞인 상태에서 원래의 토큰을 복원하는 반복적인 Denoising 과정을 거치므로, 기존의 강화학습 인프라를 그대로 적용할 수 없는 구조적 차이가 존재한다.

DARE는 이러한 차이를 해결하기 위해 dLLM의 핵심 개념인 Denoising Trajectory와 ELBO(Evidence Lower Bound) 기반의 목적 함수를 표준화된 인터페이스로 추상화한다. MDLM의 전체 시퀀스 가시성과 BDLM의 세미-자기회귀적 특성을 모두 수용할 수 있도록 설계되어, 연구자가 모델의 내부 구조를 깊게 수정하지 않고도 다양한 강화학습 알고리즘을 플러그인 형태로 교체하며 실험할 수 있게 한다.

결과적으로 DARE는 파편화된 연구 코드를 하나의 실행 스택으로 모음으로써, 특정 알고리즘이 특정 모델에서만 잘 작동하는 것처럼 보이던 '구현의 함정'을 제거한다. 이를 통해 연구자들은 동일한 하드웨어와 최적화 조건에서 알고리즘 순수 성능을 비교할 수 있으며, 이는 dLLM 생태계의 기술적 성숙도를 한 단계 높이는 토대가 된다.

방법론

DARE는 verl 프레임워크를 기반으로 분산 학습을 수행하며, OpenCompass를 통해 평가를 자동화하는 구조를 갖는다. 전체 시스템은 Worker, Dataflow, Workflow라는 세 가지 추상화 계층으로 설계되어 모델별 특이성을 분리한다.

MDLM(Masked Diffusion Language Models) 최적화를 위해 학습 시에는 가변 길이 배치를 처리하는 flash_attn_varlen_func를 사용하여 패딩 오버헤드를 제거한다. [입력 시퀀스에서 패딩 토큰 제외 → 유효 토큰들만 결합하여 연산 → 결과값 도출] 과정을 통해 연산 효율을 높인다. 추론(Rollout) 시에는 Fast-dLLM과 KV-캐시 재사용 기법을 결합하여 반복적인 Denoising 과정에서의 중복 계산을 방지한다.

BDLM(Block Diffusion Language Models)의 경우, 블록 단위의 자기회귀적 특성을 반영하기 위해 LMDeploy와 SGLang 백엔드를 통합한다. 학습 과정에서는 SDAR 모델의 특성에 맞춰 로짓(Logit)을 명시적으로 생성하지 않고 손실을 계산하는 Fused Loss Kernel을 적용한다. [블록 단위 텐서 입력 → 커널 내에서 직접 교차 엔트로피 계산 → 그래디언트 출력] 순서로 메모리 대역폭 점유를 최소화하고 학습 속도를 개선한다.

주요 결과

LLaDA, Dream, SDAR 등 주요 dLLM 모델군을 대상으로 한 실험에서 DARE는 높은 재현성과 성능 향상을 입증했다. MDLM의 경우, 최적화된 백엔드 적용 시 SFT 반복 지연 시간이 22.1초에서 10.8초로 약 2배 단축되었으며, 전체 RL 파이프라인 속도는 기존 대비 약 4배 향상되었다.

BDLM 모델인 SDAR-8B-Chat 등에서는 LMDeploy 및 전용 커널 활용을 통해 RL 파이프라인 가속도가 14배 이상 증가하는 결과를 보였다. 수학(GSM8K, MATH), 코드(HumanEval, MBPP), 추론(Countdown, Sudoku) 등 다양한 태스크에서 CJ-GRPO, Coupled-GRPO 등 최신 알고리즘의 성능을 비교 분석하여 각 모델 아키텍처에 최적화된 알고리즘 조합을 식별해냈다.

기술 상세

DARE의 아키텍처는 PPO 스타일의 데이터 흐름을 유지하면서도 확산 모델 특유의 역과정(Reverse Process)과 순방향 부식 과정(Forward Corruption)을 수용하도록 설계되었다. 특히 NELBO(Negative Evidence Lower Bound) 목적 함수를 계산할 때, 마스크 예측기 pθ가 노이즈 xt로부터 원본 x0를 복원하는 로그 확률을 시퀀스 전체에 대해 합산하고 시간 단계 t로 나누는 과정을 표준화했다.

알고리즘 구현 측면에서는 ELBO 기반 방식(VRPO, BGPO 등)과 1단계 Denoising 최적화 방식(D1, Coupled-GRPO)의 차이를 명확히 구분하여 지원한다. ELBO 기반 방식은 몬테카를로 샘플링 수에 따른 추정치 분산 문제를 겪을 수 있는데, DARE는 이를 제어할 수 있는 샘플링 파라미터와 대리 손실(Surrogate Loss) 함수를 제공하여 학습 안정성을 높인다. 또한 가변 길이 생성을 지원하기 위해 시퀀스 병렬 처리와 블록 단위 캐싱 메커니즘을 통합하여 대규모 모델 학습 시의 메모리 병목 현상을 해결했다.

한계점

현재 DARE는 텍스트 기반 dLLM에 집중되어 있어, 비전(Vision)이나 옴니(Omni) 모델과 같은 멀티모달 확산 언어 모델로의 확장이 향후 과제로 남아 있다. 또한 고도로 최적화된 ELBO 기반 RL 알고리즘의 안정성을 더욱 개선하기 위한 새로운 추정기(Estimator) 도입이 필요함을 명시하고 있다.

실무 활용

dLLM 연구 및 개발을 진행하는 엔지니어와 연구자가 복잡한 인프라 구축 없이 즉시 최신 강화학습 알고리즘을 적용할 수 있는 실무적인 도구이다.

기존 LLaDA 또는 SDAR 모델에 최신 강화학습(GRPO, DPO 등)을 적용하여 도메인 특화 성능 개선
다양한 dLLM 아키텍처 간의 추론 속도 및 정확도 벤치마크 비교 분석
FlashAttention 및 전용 커널을 활용한 dLLM 학습 비용 및 시간 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

dLLM(확산 대형 언어 모델)RL(강화학습)Alignment(정렬)MDLM(마스크 확산 언어 모델)BDLM(블록 확산 언어 모델)Optimization(최적화)