프리픽스 언어 모델 어텐션
입력 시퀀스의 앞부분(이미지)은 양방향으로 서로 참조하게 하고, 뒷부분(텍스트)은 이전 토큰만 참조하는 인과적 방식을 결합한 메커니즘이다. 멀티모달 데이터의 효율적인 통합 학습을 가능하게 한다.