World-Conditioned Action Denoiser
latent world를 조건으로 action tokens를 노이즈 제거하고 다중 모드 예측을 수행하는 디노이저 모듈로, qinit/qref 입력에 따라 초기 제안 및 인터랙티브 정제를 수행한다.