핵심 요약
기존의 시각-언어 모델 학습은 더 강력한 모델의 데이터를 그대로 따라 하는 방식이었으나, 이는 모델이 이해하지 못하는 세부 사항까지 억지로 추측하게 만들어 환각을 유발했다. 이 논문은 모델이 스스로 생성한 내용을 검증하고 교정하는 온라인 학습 방식을 통해 외부 데이터 의존 없이도 사실 관계 정확도를 획기적으로 높였다.
왜 중요한가
기존의 시각-언어 모델 학습은 더 강력한 모델의 데이터를 그대로 따라 하는 방식이었으나, 이는 모델이 이해하지 못하는 세부 사항까지 억지로 추측하게 만들어 환각을 유발했다. 이 논문은 모델이 스스로 생성한 내용을 검증하고 교정하는 온라인 학습 방식을 통해 외부 데이터 의존 없이도 사실 관계 정확도를 획기적으로 높였다.
관련 Figure

강력한 교사 모델이 생성한 세부 묘사(작은 마우스, 녹색 유리병 등)를 인지 능력이 낮은 학생 모델이 학습할 때, 실제로는 보이지 않는 대상을 추측하여 '거울', '포스터' 등의 환각을 생성하게 됨을 설명한다. 이는 본 논문이 해결하고자 하는 '감독-인지 불일치'의 핵심 개념을 시각화한다.
교사 모델의 정밀한 묘사가 학생 모델에게 환각을 유발하는 과정을 보여주는 다이어그램이다.
핵심 기여
감독-인지 불일치 문제 규명
강력한 교사 모델의 정밀한 묘사를 학생 모델이 강제로 학습할 때, 자신의 인지 능력을 벗어난 내용을 추측하면서 환각이 발생한다는 메커니즘을 실험적으로 증명했다.
생성-판별 격차 활용
모델이 문장을 자유롭게 생성할 때는 환각을 일으키기 쉽지만, 특정 질문에 대해 참/거짓을 판별할 때는 훨씬 높은 정확도를 보인다는 특성을 발견하여 이를 자가 학습의 신호로 활용했다.
OSCAR 프레임워크 제안
Monte Carlo Tree Search와 이중 입도 보상 메커니즘을 결합하여 고품질의 선호 데이터를 생성하고, 이를 DPO를 통해 반복적으로 학습하는 온라인 자가 교정 체계를 구축했다.
핵심 아이디어 이해하기
딥러닝 모델의 생성 과정은 이전 토큰들을 바탕으로 다음 토큰의 확률 분포를 계산하는 autoregressive 방식이다. 이때 초기 단계에서 발생한 미세한 오류가 뒤따르는 생성 과정에서 증폭되어 전체 문장이 사실과 달라지는 현상이 발생한다. 기존 방식은 이미 생성된 결과물을 사후에 수정하려 했으나, 이는 근본적인 생성 확률 분포를 교정하기 어려웠다.
OSCAR는 Monte Carlo Tree Search를 도입하여 문장 생성의 각 단계에서 미래에 발생할 수 있는 환각 가능성을 미리 탐색한다. 모델은 자신이 생성하려는 각 문장이 이미지와 일치하는지 스스로 판별(Discriminative Verification)하고, 이 판별 점수를 보상으로 삼아 트리를 확장한다. 이는 마치 바둑 AI가 수읽기를 하듯, 환각을 유발할 위험이 낮은 경로를 선택하도록 유도하는 원리이다.
결과적으로 모델은 자신의 인지 범위 내에서 설명 가능한 내용에 집중하게 되며, 학습이 반복될수록 생성 확률 분포 자체가 사실에 기반하도록 정렬된다. 이는 외부 지식 주입 없이도 모델 내부의 잠재된 판별 능력을 끌어올려 생성의 정확도를 높이는 효과를 가져온다.
방법론
OSCAR는 Monte Carlo Tree Search(MCTS)를 통해 생성 공간을 탐색하고 선호 데이터를 구축한다. MCTS는 Selection, Expansion, Evaluation, Backpropagation의 4단계로 구성되며, 각 노드는 문장 단위의 부분 응답을 나타낸다. Selection 단계에서는 PUCT 알고리즘을 사용하여 탐험과 활용의 균형을 맞추며 유망한 노드를 선택한다.
핵심인 Dual-Granularity Reward Mechanism은 두 가지 층위의 보상을 제공한다. 노드 수준의 Process Reward는 모델의 판별 능력을 활용하여 생성된 문장에 존재하지 않는 객체가 포함되었는지 확인한다. 구체적으로 [이미지 + 질문 + 생성 문장 → 판별 프롬프트 → 'No' 확률값] 순으로 연산하여 환각이 없을 확률을 보상으로 산출한다. 이는 생성 과정의 각 단계에서 즉각적인 피드백을 제공한다.
궤적 수준의 Gated Outcome Reward는 전체 응답의 품질을 평가한다. 먼저 생성된 모든 객체 명사를 추출하여 정답 셋과 비교하는 가드레일을 통과해야 하며, 통과 시에만 논리적 일관성과 유창성을 점수화한다. [최종 응답 → 품질 평가 모델 → 0~10 점수] 연산을 거쳐 최종 보상을 결정하며, 환각이 발견되면 보상은 0이 된다. 이 신호들은 역전파를 통해 루트 노드까지 전달되어 각 토큰의 장기적 가치(Q-value)를 갱신한다.
마지막으로 MCTS 트리에서 추출된 최적 경로(Chosen)와 최악 경로(Rejected) 쌍을 사용하여 Direct Preference Optimization(DPO) 학습을 수행한다. 이 과정은 반복적으로 수행되어 모델의 성능 향상에 맞춰 학습 데이터의 수준도 함께 진화하는 온라인 학습 구조를 완성한다.
관련 Figure

MCTS를 통한 탐색 과정과 문장 단위의 Process Reward, 전체 응답 단위의 Gated Outcome Reward가 어떻게 결합되어 선호 데이터를 생성하는지 보여준다. 추출된 데이터가 DPO 학습으로 이어지는 전체 파이프라인을 상세히 묘사한다.
OSCAR 프레임워크의 전체 구조와 MCTS 및 이중 입도 보상 메커니즘을 나타낸다.
주요 결과
LLaVA-1.5-7B 모델에 적용한 결과, Object HalBench 벤치마크에서 환각 지표인 CHAIRs가 49.0에서 27.6으로, CHAIRi가 14.3에서 8.2로 대폭 감소했다. 특히 더 큰 모델인 LLaVA-1.5-13B에서는 CHAIRs가 5.4까지 떨어지며 베이스라인 대비 87.9%의 개선율을 기록했다.
판별 성능을 측정하는 POPE 벤치마크에서도 F1 스코어 86.22%를 달성하여 기존의 데이터 중심 최적화 방식인 POVID(86.90%)와 대등한 수준을 보였다. 이는 OSCAR가 생성 능력뿐만 아니라 모델의 전반적인 시각 인지 정확도를 함께 향상시켰음을 의미한다.
Ablation Study를 통해 MCTS, Process Reward, Gated Outcome Reward의 기여도를 분석했다. MCTS를 제외하고 단순 샘플링만 사용했을 때보다 MCTS를 통합했을 때 CHAIRs 수치가 약 14.7%p 추가 개선되어, 장기적 관점의 탐색이 환각 억제에 필수적임을 입증했다.
관련 Figure

기존 모델은 이미지에 없는 포크, 책, 소파 등을 환각으로 생성(빨간색 표시)하는 반면, OSCAR는 실제 존재하는 팝콘 그릇, CD 등을 정확하게 묘사(초록색 표시)함을 보여준다. 이를 통해 제안 방법론의 실제적인 환각 억제 효과를 확인할 수 있다.
기존 LLaVA-1.5 모델과 OSCAR가 적용된 모델의 생성 결과물을 비교한 사례이다.
기술 상세
OSCAR는 'Supervision-Perception Mismatch' 문제를 해결하기 위해 오프라인 증류(Offline Distillation) 대신 온라인 자가 개선(Online Self-Improvement)을 채택했다. 교사 모델의 고해상도 인지 결과물을 강제로 학습하는 대신, 학생 모델이 스스로 검증 가능한 범위 내에서 데이터를 생성하도록 유도한다.
MCTS의 가치 함수는 Q(s, a) = r_proc(s, a) + γ * V(s') 구조를 가지며, 여기서 r_proc은 모델의 판별 확률을 직접 보상으로 사용한다. 이는 강화학습의 Reward Shaping과 유사한 효과를 내어 희소 보상 문제를 해결한다. 또한 Gated Outcome Reward는 단순한 정확도를 넘어 논리적 일관성과 중복성까지 평가하여 응답의 질적 하락을 방지한다.
학습 과정에서는 DPO를 사용하며, 참조 모델(Reference Model)을 이전 반복 회차의 모델로 업데이트하는 반복적 DPO(Iterative DPO) 전략을 사용한다. 이를 통해 모델의 능력이 향상됨에 따라 더 정교한 선호 데이터가 생성되는 선순환 구조를 형성하며, 실험적으로 3회의 반복 학습만으로도 성능이 수렴함을 확인했다.
한계점
본 논문은 주로 객체 존재 여부에 따른 환각에 집중하고 있으며, 객체 간의 복잡한 공간 관계나 속성 오인에 대한 상세한 분석은 향후 과제로 남아 있다. 또한 MCTS 탐색 과정에서 발생하는 연산 비용이 일반적인 파인튜닝보다 높다는 점이 한계로 작용할 수 있다.
실무 활용
OSCAR는 추가적인 인간 라벨링이나 고성능 유료 모델의 도움 없이도 기존 오픈소스 멀티모달 모델의 신뢰성을 높일 수 있는 실용적인 프레임워크이다.
- 자율 주행 시스템에서 주변 사물을 오인식하여 발생하는 위험 상황 방지
- 의료 영상 분석 시 존재하지 않는 병변을 생성하는 환각 현상 억제
- 전자상거래 플랫폼에서 이미지 기반 상품 설명을 자동 생성할 때의 정확도 향상
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.