응답 비대칭 확산
학습 시 긴 시각적 토큰 시퀀스는 중복 계산하지 않고 텍스트 응답 부분만 확산 과정에 참여시키는 효율적인 학습 전략이다. 이를 통해 학습 연산량을 대폭 줄이면서도 모델의 성능을 유지할 수 있다.