초기 융합
텍스트와 이미지 등 서로 다른 형태의 데이터를 학습 초기 단계부터 하나의 토큰 스트림으로 결합하여 학습하는 방식이다. 별도의 시각 인코더를 연결하는 방식보다 더 깊은 수준의 멀티모달 이해를 가능하게 한다.