ELF: Embedded Language Flows(임베디드 언어 흐름)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

ELF는 연속 임베딩 공간에서 denoise를 수행하는 흐름 기반 언어 모델로, 최종 단계에서만 discrete 토큰으로 매핑한다. 이를 통해 기존의 discrete DLM과 기존 continuous DLM 대비 샘플링 스텝을 대폭 줄이면서도 품질을 유지하거나 향상시키고, 45B 토큰 수준의 학습으로도 강력한 성능을 달성한다. 이로써 연속 공간 기반의 diffusion 언어 모델이 실용적 수준의 샘플링 효율성과 데이터 효율성을 제고할 수 있음을 보인다.

왜 중요한가

ELF는 연속 임베딩 공간에서 denoise를 수행하는 흐름 기반 언어 모델로, 최종 단계에서만 discrete 토큰으로 매핑한다. 이를 통해 기존의 discrete DLM과 기존 continuous DLM 대비 샘플링 스텝을 대폭 줄이면서도 품질을 유지하거나 향상시키고, 45B 토큰 수준의 학습으로도 강력한 성능을 달성한다. 이로써 연속 공간 기반의 diffusion 언어 모델이 실용적 수준의 샘플링 효율성과 데이터 효율성을 제고할 수 있음을 보인다.

핵심 기여

ELF의 연속-임베딩 공간에서의 Flow Matching 프레임워크

토큰을 연속 임베딩 공간으로 매핑하고, 흐름 경로에서 노이즈를 제거하는 Flow Matching을 활용하며, 최종 시간 스텝 t=1에서만 discretization을 수행한다.

공유 가중치 denoiser/decoder와 최종 디코딩

denoise 단계와 decoding 단계를 하나의 네트워크로 처리하고, 최종적으로 unembedding으로 토큰 logits를 얻어 cross-entropy로 학습한다.

Training-time CFG 및 self-conditioning의 도입

classifier-free guidance를 training 시점에 적용하고, self-conditioning으로 conditioning 신호를 활용해 생성 품질과 다양성의 트레이드오프를 조정한다.

데이터- 및 계산 효율성의 향상

ELF-B는 105M 파라미터로 MDLM/Duo에 대응하는 모델 규모에서도 32-step 샘플링으로 Gen. PPL 24를 달성하며, 약 45B의 학습 토큰으로도 우수한 성능을 보인다.

조건부 생성에서의 강력한 성능

WMT14 De-En 번역 BLEU 26.4, XSum 요약 ROUGE-L 27.8 등 조건부 생성 태스크에서 기존 baselines를 상회한다.

핵심 아이디어 이해하기

"연속 임베딩 공간에서 denoise를 수행한 뒤, 최종적으로만 discrete 토큰으로 매핑한다"는 핵심 아이디어를 중심으로, ELF의 동작 원리를 다음과 같이 구성한다. 먼저 토큰 시퀀스를 연속 임베딩 공간에 매핑한 뒤 z_t = t x + (1 - t) ϵ로 노이즈를 주입한다. 이때 흐름의 속도 벡터 v는 v = dz_t/dt = x - ϵ로 정의되고, x̂_θ(zt, t)가 clean embedding x를 직접 예측하도록 학습한다. 이 x-prediction은 고차원 임베딩에서도 효과적으로 동작하도록 설계되었고, 최종적으로 t→1에서만 d iscretization을 수행하여 Wxθ(zt)에서 토큰 로짓을 얻고 CE 손실로 학습한다. training은 denoise과 decode 두 가지 모드로 진행되며, self-conditioning 및 CFG를 활용한 conditioning이 학습과 추론 양쪽에서 적용된다. 샘플링은 ODE 또는 SDE 방식으로 수행되며, logit-normal 시간 스케줄과 CFG가 생성 품질과 다양성의 균형을 조절한다.

방법론

입력: s = [s1, ..., sL]를 V에서 토큰화하고 T5-small encoder로 context embedding x로 매핑한다. 노이즈 주입: z_t = t x + (1 - t) ϵ, t ∈ [0,1], ϵ ∼ N(0,I). x-prediction: x̂_θ = net(z_t, t)로 x를 예측하고, v̂ = (x̂_θ - z_t)/(1 - t)로 velocity를 얻는다. LMSE 손실을 최소화하여 v̂와 v를 가깝게 학습한다. 최종 디코딩: t=1에서 z̃를 입력으로 받아 x̂를 얻고 unembedding(W)으로 token 로짓을 얻어 CE로 s를 예측한다. 네트워크는 denoise/decode 모드와 time condition을 입력으로 받도록 구성된다. Self-conditioning은 50% 확률로 적용되며, CFG_scale은 training-time에서도 v_cfg을 통해 함께 학습된다. Inference 시 x̂는 z_t에서 1로 이동하는 ODE(SDE) 경로를 따라 업데이트되며, 최종 단계에서 decode 모드로 넘어가 토큰으로 변환한다.

주요 결과

주요 벤치마크: Unconditional generation에서 ELF-B는 32샘플링 스텝으로 Gen. PPL 24를 달성하며 1024-step 기반의 기존 DLM 대비 샘플링 효율이 높다. ELF-B는 32-step에서 24 Gen. PPL, 45B 학습 토큰으로도 우수한 품질을 달성한다. Conditional generation에서 De-En BLEU 26.4, XSum ROUGE-L 27.8을 기록하며, CFG를 적절히 조정하면 품질이 개선되나 과도한 CFG는 성능을 저하시킨다. 모델 규모는 ELF-B(105M), ELF-M(342M), ELF-L(652M)이며 SDE 샘플링이 ODE에 비해 더 나은 품질-샘플링 효율을 보인다.

기술 상세

아키텍처: 입력 S = 토큰 시퀀스 → 고정된 컨텍스트 임베딩(예: T5-small) → z_t를 활용한 연속 흐름 denoising → x̂_θ(zt, t)로 embeddings 예측 → v̂를 이용해 z_t를 업데이트 → 최종 step에서 decode 모드로 z̃→ unembedding으로 토큰 예측. 손실 함수는 LMSE(denoise)와 LCE(decoding) 두 가지를 혼합하여 학습한다. 학습-시간 CFG는 v_cfg를 사용한 가이드로 구현되며 self-conditioning으로 c를 구성한다. 샘플링은 ODE/ SDE 방식 모두를 지원하며 logit-normal 시간 스케줄, denoising-mode 비율, denoise/decoder 확장을 통해 성능-다양성 trade-off를 조절한다. Conditional Generation은 conditioning 시퀀스를 prefix로 붙이고, CFG를 적용해 품질 증가를 달성한다. 디코더는 공유 가중치를 사용하며, final step에서의 discretization은 unembedding을 통해 수행된다.

실무 활용

ELF는 continuous diffusion 기반의 텍스트 생성 접근으로, 적은 학습 토큰과 샘플링 스텝으로도 고품질 텍스트를 생성한다.

무작위/창의적 글쓰기 및 기사 생성
조건부 생성: 기계 번역(De-En), 요약(XSum)
프롬프트 기반 제어 형식의 텍스트 생성(CFG를 통한 품질/다양성 제어)
연구용으로 임베딩 공간 기반 언어 모델의 학습/샘플링 비교

코드 공개 여부: 미확인

키워드

Diffusion Language Models(확산 언어 모델)Flow Matching(플로우 매칭)continuous embedding space(연속 임베딩 공간)classifier-free guidance(CFG)OpenWebText(OWT)conditional generation(조건부 생성)self-conditioning(셀프 컨디션)unembedding(언임베딩)