시맨틱 상관관계 복원
딥러닝 모델의 마지막 레이어에서 발생하는 정보 손실을 방지하기 위해 중간 레이어의 특징 정보를 다시 가져와 결합하는 기법이다. 본 논문에서는 CLIP의 12번째 레이어 어텐션이 객체의 의미 정보를 가장 잘 보존한다는 점에 착안하여 이를 활용했다.