핵심 요약
시각-언어 모델(VLM)이 문장의 어순이나 속성 결합을 제대로 이해하지 못하는 '단어 가방(Bag-of-Words)' 현상을 해결하기 위해 단어의 구체성에 주목했다. 추상적인 단어보다 구체적인 단어를 수정했을 때 모델이 더 강력한 학습 신호를 얻는다는 원리를 이용해 모델의 논리적 추론 능력을 획기적으로 개선했다.
왜 중요한가
시각-언어 모델(VLM)이 문장의 어순이나 속성 결합을 제대로 이해하지 못하는 '단어 가방(Bag-of-Words)' 현상을 해결하기 위해 단어의 구체성에 주목했다. 추상적인 단어보다 구체적인 단어를 수정했을 때 모델이 더 강력한 학습 신호를 얻는다는 원리를 이용해 모델의 논리적 추론 능력을 획기적으로 개선했다.
핵심 기여
ConcretePlant: 구체성 기반 하드 네거티브 생성
어휘적 구체성(Lexical Concreteness) 점수를 활용하여 텍스트 캡션에서 시각적 변형이 뚜렷하게 일어날 수 있는 핵심 단어를 선택하고, 이를 변조하여 고품질의 하드 네거티브 샘플을 자동으로 생성한다.
Cement Loss: 적응형 마진을 통한 그래디언트 불균형 해소
학습 과정에서 쉬운 네거티브 샘플이 그래디언트의 대부분을 차지하는 문제를 해결하기 위해, 단어의 구체성 점수에 따라 마진을 동적으로 조절하는 Fermi-Dirac 분포 기반의 손실 함수를 제안한다.
Slipform 프레임워크 구축
ConcretePlant로 생성된 데이터셋과 Cement Loss를 결합한 Slipform 프레임워크를 통해 SugarCrepe, Winoground 등 주요 구성적 이해 벤치마크에서 SOTA 성능을 달성했다.
핵심 아이디어 이해하기
기존의 시각-언어 모델은 이미지와 캡션의 전체적인 일치 여부만 판단할 뿐, '빨간 사과와 초록 배'를 '초록 사과와 빨간 배'로 바꾸었을 때의 미세한 차이를 구분하는 데 서툴다. 이는 학습 시 무작위로 추출된 부정적 예시(Negative Samples)들이 모델에게 충분히 어려운 문제를 제시하지 못하기 때문이다.
이 논문은 '구체성(Concreteness)'이라는 개념을 도입하여 이 문제를 해결한다. 예를 들어 '현대적인'이라는 추상적 단어를 '오래된'으로 바꾸는 것보다, '침대'라는 구체적 단어를 '소파'로 바꾸는 것이 이미지 상에서 훨씬 더 큰 구조적 변화를 일으킨다. 이러한 구체적 단어의 변조는 모델이 이미지의 세부 요소와 텍스트의 관계를 더 명확하게 학습하도록 유도한다.
결과적으로 모델은 단순한 단어의 존재 여부를 넘어, 단어들이 어떻게 결합되어 의미를 형성하는지(Compositional Understanding)를 더 깊이 있게 이해하게 된다. 이는 모델이 복잡한 장면을 더 정확하게 해석하고 논리적으로 추론할 수 있게 함을 의미한다.
관련 Figure

'현대적인(contemporary)' 같은 추상적 단어를 바꾸면 이미지 변화가 미미하지만, '침대(bed)'를 '소파(couch)'로 바꾸면 구조적 변화가 큼을 보여준다. 이는 구체적 단어 선택이 하드 네거티브의 품질을 결정한다는 논문의 핵심 가설을 뒷받침한다.
추상적 단어 변조와 구체적 단어 변조의 시각적 차이 비교 예시
방법론
전체적인 접근 방식은 고품질 하드 네거티브 데이터를 생성하는 ConcretePlant 파이프라인과 이를 효율적으로 학습하기 위한 Cement Loss로 구성된다. 먼저 ConcretePlant는 SpaCy를 이용해 캡션을 분석하고, 4만 개 이상의 단어 구체성 점수가 담긴 데이터베이스를 참조하여 시각적 영향력이 큰 단어를 선정한다. 이후 Qwen3-32B를 사용하여 캡션을 변조하고 SDXL-Turbo로 대응하는 가짜 이미지를 생성한다.
학습 단계에서는 InfoNCE 손실 함수의 그래디언트 불균형 문제를 해결하기 위해 Cement Loss를 적용한다. 배치 사이즈가 커질수록 쉬운 네거티브 샘플들의 확률 합인 Σ p_i,j (j ∉ {i, i'})가 커지면서 정작 중요한 하드 네거티브의 학습 신호가 묻히는 현상이 발생한다. 이를 방지하기 위해 하드 네거티브 항에 마진 m을 추가하여 exp(s_i,i' + m) 형태로 계산함으로써 하드 네거티브의 영향력을 인위적으로 높인다.
마진 m은 고정된 값이 아니라 단어의 구체성 점수 c_i에 따라 Fermi-Dirac 분포를 따르도록 설계되었다. 구체성 점수가 높을수록 시각적 차이가 명확하므로 더 큰 마진을 부여하여 강한 학습 신호를 주고, 점수가 낮아 노이즈가 섞일 가능성이 있는 샘플에는 작은 마진을 부여하여 학습의 안정성을 도모한다. [구체성 점수 입력 → Fermi-Dirac 함수 연산 → 적응형 마진 출력 → 손실 함수 가중치 조절] 과정을 통해 최적의 학습 효율을 찾아낸다.
관련 Figure

SpaCy를 통한 단어 추출, 구체성 테이블 기반 타겟 선정, LLM(Qwen3)을 이용한 캡션 변조, SDXL-Turbo를 이용한 이미지 편집 과정을 단계별로 설명한다. 데이터 생성의 전 과정을 시각화하여 방법론의 이해를 돕는다.
ConcretePlant의 자동화된 하드 네거티브 생성 파이프라인 구조도
주요 결과
제안된 Slipform 모델은 SugarCrepe 벤치마크에서 83.00%의 정확도를 기록하며 기존 CLIP(75.38%) 대비 큰 폭의 성능 향상을 보였다. 특히 Winoground 텍스트 벤치마크에서도 31.00%를 달성하여 구성적 이해 능력이 비약적으로 발전했음을 입증했다.
Ablation Study 결과, 단순히 하드 네거티브를 추가하는 것보다 구체성 기반의 샘플링(D_hc)과 적응형 마진(Cement Loss)을 함께 사용했을 때 가장 높은 성능이 나타났다. 구체성이 낮은 단어를 변조한 데이터셋(D_lc)은 오히려 모델의 성능을 저하시키는 것으로 확인되어, 네거티브 마이닝에서 '무엇을 바꾸는가'가 핵심임을 증명했다.
그래디언트 분석 결과, 일반적인 InfoNCE는 배치 사이즈 1024에서 하드 네거티브의 그래디언트 비중이 20% 미만으로 떨어지지만, Cement Loss를 적용하면 이를 효과적으로 유지하여 대규모 배치 학습에서도 구성적 특징을 잊어버리지 않고 학습할 수 있음을 확인했다.
관련 Figure

일반 InfoNCE에서는 하드 네거티브의 그래디언트가 매우 낮지만, 마진 m이 커질수록 하드 네거티브의 학습 신호가 강화됨을 보여준다. 제안된 Cement Loss가 그래디언트 불균형을 어떻게 해결하는지 수치적으로 증명한다.
다양한 마진 설정에 따른 학습 단계별 그래디언트 값 변화 그래프
기술 상세
Slipform 아키텍처는 ViT-B-32 백본을 기반으로 하며, MS-COCO 데이터셋을 활용해 ConcreteBatch를 생성하여 학습한다. 핵심은 InfoNCE의 그래디언트 유도 과정에서 발생하는 'Easy Negative Reject' 항의 폭발적 증가를 제어하는 것이다. 수식적으로 1 - p_i,i = p_i,i' + Σ p_i,j로 표현되는 그래디언트 구조에서, 배치 크기 N이 커질수록 Σ p_i,j가 지배적이 되어 모델이 미세한 의미 차이(s_i,i')보다 데이터 분포의 균일성(Uniformity)에만 집중하게 되는 문제를 수학적으로 분석했다.
이를 해결하기 위해 도입된 Cement Loss는 적응형 마진 m_hat_i를 사용하며, 이는 m_max와 m_min 사이에서 Fermi-Dirac 분포를 통해 결정된다. 임계값 c_tilde=4, 경사도 tau_m=0.15 설정을 통해 구체성 점수가 높은 구간에서 급격한 마진 변화를 유도한다. 이는 시각적으로 뚜렷한(Concrete) 변화가 있는 샘플에 대해 모델이 더 가혹한 페널티를 부여하도록 하여 결정 경계를 정교하게 다듬는 역할을 한다.
한계점
현재의 구체성 점수는 시각적 지각뿐만 아니라 촉각, 청각, 후각 등 비시각적 요소도 포함하고 있어 시각 모델 학습에 완벽히 최적화되지 않았을 수 있다. 또한 구성적 이해 능력을 높이는 과정에서 일반적인 시각 표현 성능(General Visual Representation)과의 트레이드오프가 일부 관찰되어 이를 동시에 개선할 연구가 필요하다.
실무 활용
VLM의 고질적인 문제인 '단어 순서 무시' 및 '속성 오결합' 현상을 해결하려는 기업이나 연구자에게 즉각적인 해결책을 제시한다. 특히 고품질의 합성 데이터를 생성하여 모델을 튜닝하는 파이프라인으로 활용도가 높다.
- 전자상거래 서비스에서 '빨간색 줄무늬 셔츠'와 '셔츠의 빨간색 줄무늬'를 정확히 구분하는 검색 엔진 구축
- 자율주행 시스템에서 사물 간의 공간 관계(예: 차 앞의 보행자 vs 차 뒤의 보행자)를 정확히 인식하기 위한 모델 고도화
- 시각 장애인을 위한 화면 해설 서비스에서 사물의 속성과 관계를 더 정확하게 묘사하는 기능 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.