Abstain-R1: 검증 가능한 강화학습을 통한 보정된 기권 및 거절 후 명확화

LLM이 모르는 질문에 대해 추측하거나 환각을 일으키는 문제를 해결하기 위해, 단순히 답변을 거부하는 것을 넘어 무엇이 부족한지 설명하는 능력을 강화했습니다. 3B 규모의 작은 모델임에도 불구하고 검증 가능한 보상을 통해 DeepSeek-R1과 같은 대형 모델에 필적하는 기권 및 명확화 성능을 보여주었습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

명확화 인식 RLVR 보상 체계 제안

답변 가능한 질문에는 정답을 보상하고, 답변 불가능한 질문에는 명시적 기권과 의미적으로 일치하는 사후 명확화 질문 생성을 동시에 최적화하는 보상 함수를 설계했다.

ABSTAIN-TEST 벤치마크 구축

모델의 기권 일관성과 사후 명확화의 실행 가능성을 평가하기 위한 2.9K 규모의 데이터셋과 전용 메트릭 스위트를 도입했다.

ABSTAIN-R1 모델 개발

Qwen2.5-3B-Instruct를 기반으로 학습되어, 답변 가능한 질문의 성능을 유지하면서도 답변 불가능한 질문에 대한 보정된 기권 및 고품질 명확화 능력을 확보했다.

핵심 아이디어 이해하기

기존의 LLM 학습 방식은 질문이 주어지면 어떻게든 답변을 생성하도록 유도되어, 정보가 부족한 상황에서도 그럴듯한 거짓말을 하는 '환각 세금(Hallucination Tax)' 문제를 야기한다. 이는 모델이 정답 확률 분포에서 가장 높은 값을 선택하려는 Softmax 특성상, 정보가 없는 상태에서도 특정 답변에 높은 확률을 할당하게 되기 때문이다.

이 논문은 모델이 답변할 수 없는 이유를 스스로 파악하고 이를 사용자에게 질문(Clarification)하도록 만드는 것을 목표로 한다. 이를 위해 강화학습 과정에서 모델이 'I don't know'라고 기권했을 때 기본 점수를 주고, 이어서 부족한 정보가 무엇인지 정확히 짚어냈을 때 추가 점수를 주는 구조를 도입했다.

결과적으로 모델은 단순히 답변을 회피하는 것이 아니라, 논리적 추론 과정(Chain-of-Thought)을 통해 질문의 결함을 찾아내고 이를 설명하는 법을 배운다. 이는 모델의 규모를 키우는 것보다 특정 목적에 맞는 보상 설계가 신뢰성 향상에 더 효과적임을 시사한다.

방법론

전체 학습 과정은 SFT(Supervised Fine-tuning)를 통한 콜드 스타트 단계와 GRPO(Group Relative Policy Optimization)를 이용한 강화학습 단계로 구성된다. 먼저 DeepSeek-V3를 활용해 생성한 Abstain-CoT 데이터셋으로 모델이 기권 후 명확화하는 형식을 익히게 한다.

강화학습 단계에서는 GRPO 알고리즘을 사용하여 별도의 Value Model 없이 효율적으로 학습한다. 입력 질문 q에 대해 G개의 출력 {o1, ..., oG}을 생성하고, 각 출력의 보상 r_i를 그룹 내 평균과 표준편차로 정규화하여 Advantage A_i를 계산한다. [출력 확률 비율 r_i * 이점 A_i → 클리핑 연산 → 정책 업데이트] 순으로 계산하여 모델이 그룹 내에서 상대적으로 더 나은 기권 및 명확화 전략을 선택하도록 유도한다.

보상 함수 r(o, y)는 네 가지 요소의 가중 합으로 정의된다. 답변 가능한 질문(Dans)에 대해서는 rfmt(형식 보상)와 rans(정답 보상)를 부여하며, 오답이나 부적절한 기권 시 감점을 준다. 답변 불가능한 질문(Dunans)에 대해서는 rfmt와 rref(거절 보상)를 부여한다. rref는 모델이 '\boxed{I don't know.}'를 출력하면 0.3점을 주고, 이후 생성된 명확화 문장이 검증 모델 V에 의해 정답으로 판정되면 0.7점을 추가하여 총 1.0점을 부여한다.

관련 Figure

#3Diagram
SFT로 초기화된 정책 모델이 GRPO를 통해 형식, 정답 여부, 기권 논리, 명확화 품질에 대한 보상을 받으며 업데이트되는 과정을 보여준다. 특히 검증 모델(Verifier)이 명확화의 정확성을 판단하는 루프가 핵심이다.
GRPO를 이용한 Abstain-R1의 전체 학습 파이프라인 다이어그램

주요 결과

ABSTAIN-R1(3B)은 ABSTAIN-TEST 벤치마크에서 기본 모델인 Qwen2.5-3B-Instruct 대비 기권율(U-Ref)을 9.4%에서 68.1%로, 명확화 정확도(U-Clar)를 0.6%에서 55.1%로 대폭 향상시켰다. 이는 671B 파라미터 규모의 DeepSeek-R1(U-Ref 52.2%, U-Clar 46.5%)보다도 높은 수치이다.

답변 가능한 질문에 대한 정확도(A-Acc) 역시 48.8%에서 57.2%로 상승하여, 기권 학습이 전반적인 추론 능력 향상에도 기여함을 입증했다. 특히 수학 도메인에서 가장 큰 폭의 성능 향상이 관찰되었으며, 이는 강화학습 보상 모델이 수학적 논리 구조와 잘 정렬되었기 때문으로 분석된다.

Ablation Study 결과, SFT만으로는 기권 행동이 정형화되고 취약해지는 반면, RL(강화학습)을 결합했을 때 비로소 다양한 도메인에서 일관된 기권 및 명확화 성능이 나타났다. 또한 답변 가능한 질문에 대한 오기권(False-Unknown) 페널티를 강화할수록 모델의 과도한 보수성을 억제하고 균형 잡힌 성능을 달성할 수 있었다.

관련 Figure

#1Chart
Abstain-R1 3B 모델이 32B나 671B 규모의 대형 모델들보다 훨씬 높은 기권 및 명확화 성능을 보임을 시사한다. 이는 단순한 스케일링보다 전용 강화학습 목적 함수가 신뢰성 확보에 더 중요함을 보여준다.
모델 크기별 기권율(U-Ref) 및 명확화 정확도(U-Clar) 비교 그래프

기술 상세

ABSTAIN-R1은 Qwen2.5-3B-Instruct를 백본으로 하며, GRPO 학습 시 4개의 A100 GPU를 사용하여 약 20시간 동안 100 스텝의 최적화를 진행했다. KL Divergence 계수 β는 0.001, 클리핑 임계값 ϵ은 0.2로 설정하여 참조 모델로부터의 과도한 이탈을 방지했다.

명확화 문장의 정답 여부를 판정하기 위해 xVerify-3B-Ia라는 경량 검증 모델을 학습 중에 사용했다. 이 모델은 생성된 명확화 문장이 참조 문장과 의미적으로 동일한지 판단하며, 오프라인 평가에서는 더 강력한 o4-mini를 사용하여 평가의 객관성을 확보했다.

연구진은 '환각 세금' 현상을 억제하기 위해 답변 가능한 질문에 대한 기권 시 강한 페널티(-1.0)를 부여하는 것이 모델의 정밀도(Precision)와 재현율(Recall) 사이의 최적의 균형점을 찾는 핵심임을 발견했다.

관련 Figure

#8Chart
수학(Math) 도메인이 가장 큰 비중을 차지하며, 생물학, 세계 지식, 사실 확인 등 다양한 영역을 포괄하고 있어 모델의 범용적인 기권 능력을 학습시키기에 적합한 구성을 보여준다.
학습 데이터셋(Abstain-CoT)과 평가 데이터셋(Abstain-Test)의 도메인 분포

한계점

주로 영어 기반의 질의응답 벤치마크에서 평가되었으므로 다국어 환경이나 더 개방적인 대화 시나리오에서의 전이 가능성은 아직 불분명하다. 또한 RLVR 학습 과정에서 LLM 기반 판정관(Judge)의 편향이나 오류가 보상 신호에 섞일 위험이 존재한다.

실무 활용

의료, 법률 등 환각이 치명적인 전문 분야에서 LLM의 신뢰성을 높이는 데 즉시 활용 가능하다. 모델이 모르는 것을 명확히 인지하고 사용자에게 되묻는 기능을 통해 대화형 AI의 협업 능력을 개선할 수 있다.

의료 진단 보조 시스템에서 정보 부족 시 추가 검사나 증상을 사용자에게 요청
법률 상담 봇이 사실 관계가 불분명한 경우 판단을 유보하고 구체적 정황을 질문
수학 및 과학 교육용 AI가 문제 오류를 지적하고 올바른 조건 설정을 유도

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(검증 가능한 보상을 통한 강화학습)Abstention(기권)Hallucination(환각)GRPO(그룹 상대 정책 최적화)Clarification(명확화)

Abstain-R1: 검증 가능한 강화학습을 통한 보정된 기권 및 거절 후 명확화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

명확화 인식 RLVR 보상 체계 제안

ABSTAIN-TEST 벤치마크 구축

모델의 기권 일관성과 사후 명확화의 실행 가능성을 평가하기 위한 2.9K 규모의 데이터셋과 전용 메트릭 스위트를 도입했다.

ABSTAIN-R1 모델 개발

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

의료 진단 보조 시스템에서 정보 부족 시 추가 검사나 증상을 사용자에게 요청
법률 상담 봇이 사실 관계가 불분명한 경우 판단을 유보하고 구체적 정황을 질문
수학 및 과학 교육용 AI가 문제 오류를 지적하고 올바른 조건 설정을 유도

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(검증 가능한 보상을 통한 강화학습)Abstention(기권)Hallucination(환각)GRPO(그룹 상대 정책 최적화)Clarification(명확화)

Abstain-R1: 검증 가능한 강화학습을 통한 보정된 기권 및 거절 후 명확화

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Abstain-R1: 검증 가능한 강화학습을 통한 보정된 기권 및 거절 후 명확화

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드