표현 오토인코더
시각적 이해를 위한 시맨틱 특징 추출과 시각적 생성을 위한 픽셀 복원을 동시에 수행할 수 있는 통합 시각 인코더 구조이다. 기존에 이해와 생성을 위해 별도의 모델(CLIP, VAE 등)을 사용하던 방식에서 벗어나 단일한 고차원 레이턴트 공간을 공유함으로써 아키텍처를 단순화하고 효율성을 높인다.