TL;DR
대형 언어 모델의 파라메트릭 지식을 직접 회상하는 능력은 훈련 데이터의 범위를 넘어선 한계가 있었다. 본 연구는 비-CoT 조건의 직접 지식 회상을 대상으로 RL을 적용해, 훈련-시간 및 추론-시간 baselines를 능가하는 일관된 향상을 입증한다. RL은 새로운 지식을 주입하는 것이 아니라, 잠재된 지식을 출력 분포의 테일에서 더 잘 활용 가능하도록 재분배한다.
왜 중요한가
대형 언어 모델의 파라메트릭 지식을 직접 회상하는 능력은 훈련 데이터의 범위를 넘어선 한계가 있었다. 본 연구는 비-CoT 조건의 직접 지식 회상을 대상으로 RL을 적용해, 훈련-시간 및 추론-시간 baselines를 능가하는 일관된 향상을 입증한다. RL은 새로운 지식을 주입하는 것이 아니라, 잠재된 지식을 출력 분포의 테일에서 더 잘 활용 가능하도록 재분배한다.
핵심 기여
직접 지식 회상에 대한 RL의 실증
세 가지 모델 계열과 네 가지 사실 QA 벤치마크에서 이진 보상 기반의 RL이 평균 약 27%의 상대적 이득을 달성한다. 이는 SFT, DPO, RFT 등 훈련-시간/추론-시간 baselines를 상회한다.
지식 주입이 아닌 확률 질량 재배치
RL은 새로운 사실을 얻는 것이 아니라, 올바른 답을 낮은 확률 끝에서 높은 확률의 프론트로 이동시켜 그리디 디코딩에서 더 자주 선택되도록 만든다.
데이터 가용성의 역설적 신호가 학습에 중요
pre-RL 접근성 128 샘플 중 0/128에 해당하는 inaccessible@128 데이터가 전체 RL 이득의 약 83%를 설명하는 강력한 학습 신호를 제공한다.
테스트 간 transfer와 스케일에 대한 강건성
RL은 72B 규모의 대형 모델 및 PPO/GRPO 같은 알고리즘 변형에서도 일관된 이득을 보이며, cross-dataset 전이에 강한 일반화를 보인다.
zero-shot, 한 걸음 질문에서의 CoT 감소 효과
CoT 없이도 직접적인 사실 회상을 크게 개선하며, 다수의 벤치에서 RL이 테스트-타임에서 단일 샘플의 정확도를 크게 향상시킨다.
핵심 아이디어 이해하기
- 문제 정의: 비-CoT 설정에서 질의 q에 대해 모델이 최종 답을 직접 출력하도록 하고, 정답 여부로만 보상을 주는 이진 보상을 사용한다. 2) 학습 원리: GRPO 기반의 RL 알고리즘으로, rollout 그룹 간 보상을 비교하여 advantage를 추정한다. 보상은 의미적으로 평가된 정답 여부로 결정되며, reward hacking 위험을 낮추기 위해 LLM-judge를 사용한다. 3) 핵심 메커니즘: RL은 출력 분포의 질량을 재배치하여, 처음에는 낮은 확률에 위치하던 올바른 답을 점차 상위에 올려놓는다. 4) 데이터의 역할: pre-RL에서 접근성 낮은 사실일수록 RL에 의해 회복될 확률이 커지며, inaccessible@128 사실은 전체 RL 이득의 주된 기여자다. 5) 결론: RL은 파라메트릭 지식을 새로 얻는 도구가 아니라, 이미 존재하는 기억에 더 쉽게 접근하게 만드는 제어 파이프라인이다.
방법론
- 문제 설정: zero-shot, one-hop, closed-book QA에서 모델이 최종 답만 제시하도록 하며, 정답은 이진 정확도로 판단한다. 2) 알고리즘: GRPO를 사용하며 rollout 그룹 간 보상을 정규화하여 advantage를 계산한다. 보상은 이진(정답 여부)이며, 정답 여부는 semantic verifier인 LLM-judge를 통해 판단한다. 3) 데이터/평가: NQ, TriviaQA, PopQA, SimpleQA에 대해 train/val/test 분할; 데이터 중복 제거를 위한 두 단계 dedup 파이프라인(임베딩 기반 후보 검색 + LLM-기반 의미적 판정) 적용. 4) 모델/하이퍼파라미터: 모델은 Qwen2.5-7B, Llama-3.1-8B-Instruct, OLMo-2-7B-Instruct; 학습률 1e-6, 배치 크기 128, 8 에폭, rollout 그룹 크기 n=5, KL 규제 β=0.001, PPO clip 0.2. 5) 생성: 디폴트 디코딩은 greed; 다수의 확률 샘플이 필요한 분석에선 동일한 RL 롤아웃 설정을 사용. 6) 계산 자원: 8x NVIDIA A100(80GB) GPU, 총 약 80시간.
주요 결과
주요 벤치마크에서 RL의 효과가 가장 두드러지며, 네 가지 모델-데이터셋 조합에서 RL의 Post-RL 정확도는 다음과 같다. Llama-3.1-8B: TQA 69.89, NQ 46.39, PQA 31.44, SQA 4.74; OLMo-2-7B: TQA 65.85, NQ 36.91, PQA 27.48, SQA 4.33; Qwen2.5-7B: TQA 59.94, NQ 34.12, PQA 22.27, SQA 3.88. 비교 기준(Base)은 Llama: 63.54/30.15/23.52/5.43; OLMo: 54.86/22.79/21.07/3.56; Qwen: 49.39/21.42/16.96/4.15. DPO/RFT/SFT 대비 RL의 평균 절대 향상은 약 10% 포인트 수준이며, NQ의 경우 최대 15포인트 이상 개선된다. 테스트-타임 스케일링(majority voting, CoT)은 RL만큼 일관된 개선을 제공하지 못한다. 벤치 간 전이(교차 데이터셋)에서도 유의한 정확도 향상이 관찰되며, SimpleQA를 제외한 대부분의 교차-데이터셋 쌍에서 RL의 개선이 지속된다. 4) 샘플링 예시: k=1 또는 k=2에서의 post-RL 정확도는 pre-RL에서 k=16/32를 필요로 하는 수준으로 대응하며, 256까지 확장 시 pre-RL과 post-RL 간 격차는 감소한다. 5) 데이터-기반 분석: inaccessible@128 팩트가 전체 RL 이득의 약 83%를 차지하며, PA(Partially Accessible)와 IA(Inaccessible@128) 조합이 전체 이득을 달성하는 데 가장 큰 기여를 한다. 6) 모델 규모/아키텍처: 72B 규모의 Qwen 계열에서도 대체로 비슷한 절대 향상을 보이며, MoE 아키텍처에서도 유의미한 이득이 재현된다.
관련 Figure

이 그림은 RL이 테스트-타임 샘플링 기반 접근법보다 일관되게 큰 정확도 향상을 낳는다는 근거를 제공한다. RL의 이득이 온전한 재분배에 기인함을 시사하고, majority voting의 한계와 CoT의 불안정성도 시사한다.
Figure 2: 서로 다른 모델과 데이터셋에서 RL과 test-time 스케일링의 효과를 비교한 그래프. 다수의 샘플링과 CoT가 항상 RL만큼 일관되게 성능을 향상시키지는 못함.

출처 데이터셋 간의 차이가 커도 RL은 일반화된 직접적 사실 회상 메커니즘을 증진한다는 사실을 뒷받침한다. SimpleQA를 제외한 대부분의 조합에서 양호한 전이 성능을 보인다.
Figure 3: RL의 교차 데이터셋 전이에서의 정확도 향상. 원칙적으로 서로 다른 도메인에서도 일관된 이득이 관찰된다.

post-RL 모델은 저/중 샘플링 예산(k≤64)에서 일관되게 우수하고, k=1 또는 k=2일 때도 이미 성능이 향상된다. 이는 RL이 greedy decoding의 요구를 넘어서, 전체적 기억 접근성을 향상시킨다는 것을 보여준다.
Figure 5: NQ 벤치마크에서 pre-RL과 post-RL의 pass@k 축적 곡선 비교.

pre-RL 접근성과 repair rate 간의 강한 양의 상관관계가 일관되게 관찰되며, zero-accessibility 케이스도 RL에 의해 소수의 경우에 회복되는 것을 보여준다. 이는 RL이 낮은 접근성의 지식 신호를 강화한다는 근거를 제공한다.
Figure 4: 초기 실패 질문에 대한 post-RL 보정률이 pre-RL 접근성에 따라 크게 달라지는 것을 보이는 바 차트.

세 모델에서 RL은 다른 방법들보다 더욱 견고하고 지속적인 테스트-세트 향상을 보인다. 전체적으로 RL의 효과가 모델 크기나 아키텍처에 구애받지 않는 일반적 현상임을 시사한다.
Figure 10: 세 모델(Llama/OLMo/Qwen)에서 RL, DPO, SFT의 학습-동적 변화.
기술 상세
아키텍처 차원: GRPO 기반의 정책 최적화로, rollout 그룹 내부의 보상을 비교해 상대적 이점을 업데이트한다. 보상은 이진 정확도이며, 정답 여부는 LLM-judge를 통한 의미적 검증으로 판단한다. 데이터 구성은 네 가지 벤치마크(NQ, TriviaQA, PopQA, SimpleQA)에서 train/validation/test를 구성하고, 테스트 데이터와 학습 데이터 간 사실 단위 중복을 제거하는 fact-level deduplication을 수행한다. Stage1은 임베딩 기반 후보 추출(코사인 유사도 상위 10개)이고, Stage2에서 학술적 의미를 확인하는 LLM-judge로 후보를 제거한다. 하이퍼파라미터는 학습률 1e-6, 글로벌 배치 128, 8 에폭, 그룹 크기 n=5, KL 규제 β=0.001, PPO clip 0.2를 채택한다. 평가에서는 greedy decoding과 pass@k(k=256)로 성능을 분석하며, reward의 신뢰도 확보를 위해 Qwen2.5-72B-Instruct를 unified judge로 사용한다.
한계점
SimpleQA 벤치처럼 초기 정확도가 매우 낮은 경우 RL의 보상 희소성으로 인해 이득이 제한될 수 있다. 또한 LLM-judge에 의한 보상 할당은 reward-hacking의 위험이 존재할 수 있으나, 인간 평가와의 agreement 분석에서 신뢰도가 충분히 확보되었고, post-RL 출력의 정밀도도 상승했다. 데이터 deduplication은 테스트-팩트를 과도하게 제거하지 않는 선에서 엄격히 수행되었다.
실무 활용
RL 기반의 직접적 사실 회상 향상은 실제 응용에서 파라메트릭 지식의 신뢰성을 높인다. CoT 의존 없이도 사실 정확도를 크게 향상시키며, 특정 도메인 지식이 필요한 질의응답 시스템에 적용할 수 있다.
- 지식 집약적 고객지원 챗봇의 직접적 사실 회상 향상
- 검색 기반 오픈도메인 QA 시스템의 정확도 증가
- 도메인 특화 LLM의 파라메트릭 지식 회상 개선(예: 의료/법률 요건 확인 보조)
- 대화형 AI의 잘못된 사실 진술 감소를 위한 모델 검증 파이프라인 보강
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.