옴니 어텐션
텍스트의 인과적(Causal) 관계와 시각적 데이터의 전체 맥락(Full-context)을 동시에 처리할 수 있도록 설계된 어텐션 메커니즘입니다. 단일 트랜스포머 내에서 서로 다른 모달리티의 특성에 맞는 학습을 가능하게 합니다.