서울대학교 DSBA 연구실AI/ML조회 1회

CLIP 모델이 Dense Prediction Task에서 실패하는 이유와 개선 연구 동향

OpenAI CLIP 모델이 픽셀 단위 예측에서 성능이 낮은 원인을 분석하고, 추가 학습 없이 내부 구조 변경만으로 이를 해결하려는 최신 연구 흐름을 정리합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

CLIP의 성능 저하는 전역 정보에 집중하는 Contrastive Learning 학습 방식 때문이며, 마지막 레이어의 Self-Attention 구조를 수정하거나 중간 레이어의 정보를 활용함으로써 추가 학습 없이도 성능을 크게 개선할 수 있습니다.

배경

OpenAI의 CLIP 모델은 이미지 분류 등 전체 맥락 파악에는 뛰어나지만, 픽셀 단위의 정밀한 예측이 필요한 Dense Prediction Task에서는 한계를 보입니다.

대상 독자

컴퓨터 비전 연구자, Vision-Language 모델의 내부 작동 원리에 관심 있는 개발자, 효율적인 세그멘테이션 기법을 찾는 AI 엔지니어

의미 / 영향

이 세미나는 거대 모델을 다시 학습시키지 않고도 내부 구조의 특성을 파악하여 특정 태스크에 맞게 최적화하는 효율적인 연구 방향을 제시합니다. 특히 리소스가 부족한 환경에서도 CLIP과 같은 파운데이션 모델을 정밀한 비전 태스크에 즉시 활용할 수 있는 실무적 근거를 제공합니다. 향후 다양한 도메인 특화 모델 설계 시 레이어별 특징 보존 전략을 수립하는 데 중요한 참고 자료가 될 것입니다.

챕터별 상세

00:00

CLIP 모델의 한계와 세미나 개요

CLIP 모델은 이미지와 텍스트 간의 정렬을 기반으로 이미지 분류에서는 뛰어난 성능을 보이지만, 픽셀 단위 예측인 Dense Prediction Task에서는 성능이 제한적이다. 본 세미나는 CLIP이 왜 픽셀 레벨 태스크를 잘 수행하지 못하는지 원인을 분석하고, 이를 개선하기 위해 제안된 7개의 주요 논문을 통해 연구 트렌드를 살펴본다. 연구의 흐름은 초기 접근 방식부터 관점의 확장, 그리고 최신 접근 방식까지 단계적으로 구성된다.

02:01

비전 모델과 비전-언어 모델(VLM)의 비교

전통적인 비전 모델은 정해진 클래스 레이블에 대해서만 학습하는 Supervised Learning 방식을 사용하므로 학습하지 않은 클래스 예측이 불가능하다. 반면 CLIP과 같은 Vision-Language Model은 이미지와 텍스트를 동일한 Latent Space에서 정렬하여 Zero-shot Prediction이 가능하다. 텍스트 정보를 활용하면 '소파에 앉아 있는 고양이'와 같이 풍부한 시맨틱 정보를 학습할 수 있으며, 이미지 검색 등 다양한 태스크로 확장이 용이하다.

Zero-shot Prediction은 모델이 학습 과정에서 직접 보지 못한 데이터나 클래스에 대해 예측을 수행하는 능력을 의미합니다.

05:53

CLIP의 근본적인 문제: 공간 정보 이해 부족

CLIP은 이미지 전체를 하나의 벡터로 요약하여 텍스트와 정렬하는 Global Image-text Alignment 방식으로 학습된다. 이 과정에서 이미지의 세부 영역에 대한 로컬 공간 정보가 보존되지 않아 픽셀 단위의 구분이 어려워진다. 특히 레이어 후반부로 갈수록 모든 패치 토큰들이 서로 유사한 정보를 담게 되는 Spatial-invariant 현상이 발생하며, 이는 어텐션 맵이 모든 위치에서 비슷하게 나타나는 결과로 이어진다.

Spatial-invariant는 이미지 내의 위치와 상관없이 특징값이 일정하게 유지되는 성질을 말하며, 여기서는 개별 패치의 고유 정보가 사라지는 부정적인 의미로 쓰였습니다.

08:25

성능 개선을 위한 두 가지 갈래: Fine-tuning vs Training-free

CLIP의 공간 이해 능력을 높이기 위해 추가 데이터로 학습하는 Fine-tuning 방식과 학습 없이 내부 표현을 활용하는 Training-free 방식이 연구되어 왔다. Fine-tuning은 특정 상황에서 효과적일 수 있으나 Catastrophic Forgetting 문제와 높은 계산 비용이 발생한다. 따라서 본 세미나는 파운데이션 모델의 활용 관점에 더 적합한 Training-free 방식의 연구 흐름에 집중하여 설명한다.

Catastrophic Forgetting은 새로운 정보를 학습할 때 이전에 학습했던 정보를 급격히 잊어버리는 현상을 말합니다.

11:47

초기 접근 방식: MaskCLIP과 CLIP Surgery

MaskCLIP은 마지막 레이어에서 패치끼리 정보를 섞는 Self-Attention 과정을 생략하고 시맨틱 정보가 담긴 Value 값만 사용하여 성능을 높였다. CLIP Surgery는 어텐션 맵이 배경에 과도하게 집중되는 문제를 해결하기 위해 Query와 Key를 건너뛰고 Value 간의 유사도만 계산하는 Self-Self Attention을 제안했다. 또한 여러 텍스트 프롬프트에서 공통적으로 나타나는 노이즈 특징을 제거하는 Feature Surgery 기법을 병행하여 해석력을 높였다.

Self-Self Attention은 기존의 Q, K, V 관계 대신 V 벡터들 사이의 유사도를 직접 계산하여 어텐션 맵을 생성하는 방식입니다.

16:18

SCLIP: 패치 간의 Pairwise 상관관계 활용

SCLIP 연구는 레이어 후반부에서 패치 토큰들이 Spatial-invariant해지는 문제를 해결하기 위해 각 패치가 주변 패치와 갖는 의미적 관계를 강제하도록 설계했다. MaskCLIP처럼 어텐션을 아예 생략하는 대신, 기존에 학습된 프로젝션 행렬을 활용하여 패치 간의 Pairwise Correlation을 계산하는 방식을 사용했다. 실험 결과 Query와 Key 정보를 버리지 않고 활용한 SCLIP이 MaskCLIP이나 CLIP Surgery보다 더 높은 성능을 달성했다.

18:48

관점의 확장: ClearCLIP과 Residual Connection 분석

ClearCLIP은 모델 크기가 커질수록 성능이 저하되는 원인이 Residual Connection을 통해 전달되는 노이즈 때문임을 밝혀냈다. 레이어가 깊어질수록 Residual Feature의 엔트로피가 0에 수렴하며 특정 채널에 정보가 쏠리는 현상이 발생한다. 이를 해결하기 위해 마지막 레이어에서 Residual Connection과 Feed-forward Network(FFN)를 과감히 제거하고 어텐션 출력값만 사용한 결과, 거대 모델에서도 성능이 크게 향상됐다.

Residual Connection은 레이어의 입력을 출력에 직접 더해주는 구조로, 학습을 안정화시키지만 CLIP에서는 노이즈 누적의 원인이 되기도 합니다.

25:52

ProxyCLIP: 외부 모델의 공간 정보 주입

ProxyCLIP은 CLIP의 뛰어난 시맨틱 이해 능력과 DINO, SAM 같은 비전 파운데이션 모델(VFM)의 탁월한 공간 대응 능력을 결합했다. CLIP 내부의 노이즈 섞인 어텐션 맵 대신 VFM에서 추출한 패치 간 유사도를 Attention Weight로 사용하는 Proxy Attention 방식을 제안했다. 이 방식은 CLIP의 시맨틱 정보(Value)를 그대로 유지하면서도 어디에 집중해야 할지를 외부 모델의 가이드를 통해 정확히 파악하게 한다.

30:04

최신 접근 방식: ResCLIP과 중간 레이어 활용

ResCLIP은 마지막 레이어의 정보는 망가졌지만 중간 레이어의 Query-Key 어텐션에는 공간 정보가 살아있다는 점에 주목했다. 중간 레이어들의 어텐션 맵을 평균 내어 마지막 레이어에 Residual 방식으로 주입하는 Residual Cross-correlation Self-attention(RCS)을 제안했다. 이 방식은 추가 학습 없이도 기존 모델들에 플러그 앤 플레이 형태로 적용 가능하며, 다양한 데이터셋에서 일관된 성능 향상을 보였다.

33:04

SC-CLIP: 어노말리 토큰 제거와 멀티 레이어 퓨전

SC-CLIP은 특정 소수 토큰에 어텐션이 과도하게 쏠리는 Anomaly Token 현상을 지적하고, 이를 주변 패치의 평균값으로 대체하는 보정 기법을 사용했다. 또한 중간 레이어의 특징값이 텍스트와 직접 정렬되지 않았다는 점을 고려하여, 중간 레이어 특징을 마지막 레이어에 한 번 통과시켜 정렬한 뒤 합치는 Two-pass 방식을 제안했다. 실험 결과 중간 레이어의 정보를 적절히 정렬하여 활용하는 것이 성능 향상에 핵심적임을 증명했다.

37:07

결론 및 향후 연구 방향

CLIP 모델의 픽셀 레벨 성능 저하 원인을 분석하고 이를 해결하기 위한 연구 흐름을 정리했다. 초기에는 마지막 레이어의 구조 변경에 집중했으나, 점차 Residual Connection 제거와 중간 레이어 정보 활용으로 연구 관점이 고도화되고 확장되었다. 이러한 Training-free 기법들은 이미지 이상 탐지나 딥페이크 탐지 등 다양한 분야로 확장될 잠재력이 크며, 향후 연구적 가치가 높을 것으로 기대된다.

실무 Takeaway

CLIP의 픽셀 단위 예측 실패는 학습 과정에서 이미지 전체를 하나의 벡터로 요약하는 Global Alignment 방식 때문에 개별 패치의 공간 정보가 소실되기 때문이다.
추가 학습 없이도 마지막 레이어의 Self-Attention 과정을 생략하거나 Value 벡터 간의 유사도를 직접 계산하는 Self-Self Attention만으로 세그멘테이션 성능을 개선할 수 있다.
모델 크기가 커질수록 Residual Connection을 통해 누적되는 노이즈가 성능 저하의 주범이 되므로, 마지막 레이어에서 이를 제거하는 것이 효과적이다.
중간 레이어(Mid-layer)에는 마지막 레이어보다 더 정확한 공간 정보가 남아있으므로, 이를 추출하여 마지막 레이어에 보정 정보로 주입하는 것이 최신 연구의 핵심 트렌드이다.

언급된 리소스

논문Extract Free Dense Labels from CLIP (MaskCLIP)

논문SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference

논문ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

논문ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation

논문ResCLIP: Residual Attention for Training-free Dense Vision-language Inference

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 13.수집 2026. 04. 13.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.