CLEAR: 통합 멀티모달 모델에서 품질 저하 이미지 이해를 위한 생성 잠재력 해제

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 AI는 안개가 끼거나 화질이 깨진 이미지를 만났을 때 자신의 이미지 복원 능력을 제대로 활용하지 못하는 한계가 있었다. 이 논문은 모델 내부의 생성 경로와 추론 경로를 직접 연결하여, AI가 스스로 이미지를 복원하며 정답을 찾는 새로운 학습 프레임워크를 제시했다.

왜 중요한가

핵심 기여

CLEAR 프레임워크 제안

통합 멀티모달 모델의 생성 능력과 이해 능력을 연결하는 3단계 학습 구조를 설계했다. 행동 초기화(SFT), 잠재 표현 브릿지(Latent Bridge), 인터리브 강화학습(Interleaved GRPO)을 통해 모델이 품질 저하 상황에서 스스로 생성을 호출하도록 유도했다.

Latent Representation Bridge 구축

생성된 이미지를 다시 픽셀로 변환하고 인코딩하는 기존의 비효율적인 경로 대신, VAE의 잠재 토큰을 추론 컨텍스트에 직접 주입하는 미분 가능한 연결 통로를 구현했다. 이를 통해 생성 과정에 대한 직접적인 역전파 학습이 가능해졌다.

Interleaved GRPO 알고리즘 개발

텍스트 추론과 시각적 생성을 단일 포워드 패스 내에서 동시에 최적화하는 강화학습 기법을 도입했다. 최종 정답의 정확도를 보상으로 사용하여, 픽셀 단위의 복원 손실 함수 없이도 추론에 실질적으로 도움이 되는 시각적 상태를 생성하도록 학습시켰다.

MMD-Bench 벤치마크 구축

6개의 표준 멀티모달 벤치마크에 16가지 실제 품질 저하 유형과 3단계 심각도를 적용한 대규모 평가 데이터셋을 구축하여 모델의 강건성을 체계적으로 검증할 수 있게 했다.

핵심 아이디어 이해하기

기존의 통합 멀티모달 모델은 이미지를 설명하는 능력(이해)과 이미지를 그리는 능력(생성)을 모두 갖추고 있지만, 정작 화질이 나쁜 이미지를 해석할 때는 이 두 능력이 따로 논다. 이는 학습 과정에서 '이미지가 흐릿하니 먼저 복원하고 답을 내라'는 식의 행동 패턴을 배운 적이 없기 때문이다. 또한, 생성된 이미지를 다시 인식하려면 픽셀로 변환했다가 다시 인코딩하는 복잡한 과정을 거쳐야 하므로 학습 효율이 매우 떨어진다.

CLEAR는 이 문제를 해결하기 위해 모델 내부에 '직통 통로(Latent Representation Bridge)'를 뚫었다. 생성 모델이 만든 중간 결과물(잠재 토큰)을 픽셀로 바꾸지 않고 그대로 언어 모델의 입력으로 넣어주는 방식이다. 이렇게 하면 모델은 자신이 생성한 정보가 정답을 맞히는 데 얼마나 도움이 되었는지 직접적으로 피드백을 받을 수 있게 된다.

결과적으로 모델은 단순히 깨끗한 이미지를 흉내 내는 것이 아니라, '정답을 맞히기 위해 필요한 시각적 단서'를 복원하는 방향으로 진화한다. 강화학습 과정에서 정답을 맞혔을 때만 보상을 주었음에도 불구하고, 모델이 생성한 중간 이미지는 시각적으로도 훨씬 선명해지는 현상이 발견됐다. 이는 작업 수행 능력과 시각적 품질이 서로 상충하는 것이 아니라 자연스럽게 정렬될 수 있음을 시사한다.

방법론

CLEAR는 세 단계의 점진적 학습 과정을 거친다. 첫 번째 단계인 Behavioral Initialization(SFT)에서는 품질 저하 진단, 복원 도구 호출(<image_restore>), 복원 후 분석, 최종 답변으로 이어지는 추론 궤적을 학습시킨다. 이때 LLaVA-OneVision 데이터셋을 활용하여 모델이 언제 생성을 호출해야 할지 판단하는 기준을 정립한다.

두 번째 단계는 Latent Representation Bridge의 구축이다. VAE 디코더와 비전 인코더를 거치는 기존의 'Decode-Reencode' 루프를 제거하고, 디노이징된 VAE 잠재 토큰을 추론 컨텍스트에 직접 결합한다. [VAE 잠재 벡터 → 직접 주입 → 언어 모델 입력] 순으로 데이터가 흐르며, 이를 통해 생성 파라미터까지 그래디언트가 전달될 수 있는 미분 가능한 경로를 확보한다.

마지막 단계는 Interleaved GRPO를 통한 공동 최적화다. 텍스트 로그 확률과 이미지 생성의 속도장(Velocity Field) 로그 확률을 결합한 통합 손실 함수를 사용한다. [최종 답변 정확도 → 그룹 상대 보상 계산 → 텍스트 및 생성 정책 동시 업데이트] 과정을 통해, 모델은 픽셀 단위의 회귀 타겟 없이도 추론 성능을 극대화하는 시각적 상태를 생성하도록 정렬된다.

주요 결과

CLEAR-RL 모델은 Bagel-7B 베이스라인 대비 MMD-Bench(Hard)에서 평균 5.11점(8.5% 상대 향상)의 성능 개선을 달성했다. 특히 MM-Vet 벤치마크에서는 47.56점에서 51.97점으로 크게 상승하며 멀티모달 추론 능력이 강화되었음을 입증했다. 또한, 기존의 외부 이미지 복원 모델을 사용하는 방식(65.05점)보다 CLEAR-RL(67.07점)이 더 높은 성능을 기록했다.

Ablation Study 결과, Latent Bridge를 제거하고 기존의 Decode-Reencode 방식을 사용했을 때 성능이 63.72점으로 하락했다. 이는 미분 가능한 직접 연결이 공동 최적화에 필수적임을 보여준다. 또한, 강화학습(RL) 이후 생성된 이미지의 품질(BRISQUE, NIQE 지표)이 SFT 단계보다 개선되었는데, 이는 명시적인 복원 감독 없이도 작업 중심 보상이 시각적 품질 향상을 유도했음을 의미한다.

효율성 측면에서 CLEAR는 품질 저하가 심한 이미지에서만 선택적으로 생성을 호출하는 적응형 전략을 학습했다. 저조도/저품질 이미지에서는 생성 호출률이 최대 46.6%까지 올라가는 반면, 깨끗한 이미지에서는 5.2% 수준으로 유지되어 불필요한 연산 오버헤드를 최소화했다.

기술 상세

CLEAR의 핵심 아키텍처는 Bagel-7B를 기반으로 하며, SigLIP 비전 인코더와 VAE 구조를 공유한다. 학습 시에는 비전 인코더와 VAE 인코더/디코더를 고정(Frozen)하고 언어 모델 백본만 업데이트하여 효율성을 높였다. 생성 경로는 Flow Matching 기반의 디노이징 과정을 따르며, 30단계의 디노이징 스텝을 통해 중간 시각 상태를 복원한다.

Interleaved GRPO는 텍스트 토큰에 대한 표준 GRPO 손실과 이미지 생성에 대한 Flow-GRPO 손실을 가중치 λ(기본값 0.3)로 결합한다. 각 궤적(Trajectory)에서 하나의 디노이징 단계만 무작위로 선택하여 최적화함으로써, N단계의 디노이징 과정을 모두 계산 그래프에 유지할 때 발생하는 메모리 문제를 해결했다. 보상 함수는 최종 답변 정확도(Racc), 출력 형식 준수(Rfmt), 생성 결정의 적절성(Rdec)의 가중합으로 구성된다.

실험 분석에 따르면, 픽셀 단위의 MSE(Mean Squared Error) 손실 함수는 생성된 이미지를 지나치게 부드럽게(Blurry) 만드는 경향이 있는 반면, CLEAR의 작업 중심 보상은 텍스트 가독성이나 객체 경계와 같이 추론에 중요한 세부 특징을 더 잘 살리는 것으로 나타났다. 이는 통합 모델 내에서 생성과 이해가 상호 보완적인 관계임을 기술적으로 증명한 사례이다.

한계점

비판적인 시각 증거가 이미지 내에서 매우 작은 영역을 차지하고 심하게 손상된 경우, 현재의 30단계 디노이징 과정으로는 정확한 식별에 필요한 세부 정보를 충분히 복원하지 못할 수 있다. 향후 연구에서는 특정 지역에 집중하는(Region-aware) 생성 방식이나 가변 해상도 기법이 필요할 것으로 보인다.

실무 활용

자율주행, 보안 관제, 모바일 촬영 등 실제 환경에서 발생하는 이미지 손상 상황에서 멀티모달 AI의 신뢰성을 높이는 데 즉시 활용 가능하다.

자율주행 시스템에서 악천후(안개, 비) 시 도로 표지판 및 장애물 인식 정확도 향상
저조도 환경에서 촬영된 보안 카메라 영상의 객체 식별 및 상황 분석
심하게 압축되거나 노이즈가 섞인 모바일 사진 기반의 시각적 질의응답(VQA) 서비스 품질 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

Unified Multimodal Model(통합 멀티모달 모델)Image Degradation(이미지 품질 저하)Reinforcement Learning(강화학습)GRPO(그룹 상대 정책 최적화)Flow Matching(플로우 매칭)Visual Reasoning(시각적 추론)