핵심 요약
강화학습 중 모델이 어려운 문제에 대해 정답을 전혀 찾지 못해 학습이 중단되는 제로 어드밴티지 문제를 해결한다. 의미 없는 라틴어 문구(Lorem Ipsum)를 프롬프트 앞에 붙이는 것만으로도 모델의 사고 경로를 다각화하여 정답 발견 확률을 높일 수 있음을 입증했다.
왜 중요한가
강화학습 중 모델이 어려운 문제에 대해 정답을 전혀 찾지 못해 학습이 중단되는 제로 어드밴티지 문제를 해결한다. 의미 없는 라틴어 문구(Lorem Ipsum)를 프롬프트 앞에 붙이는 것만으로도 모델의 사고 경로를 다각화하여 정답 발견 확률을 높일 수 있음을 입증했다.
핵심 기여
LOPE(Lorem Perturbation for Exploration) 프레임워크 제안
어려운 문제에 대해 모든 응답이 실패할 경우, 프롬프트 앞에 무작위 Lorem Ipsum 문구를 추가하여 재샘플링함으로써 새로운 추론 경로를 탐색하게 하는 훈련 프레임워크이다.
제로 어드밴티지 문제 해결을 위한 훈련 신호 셰이핑
재샘플링된 성공적인 응답과 기존 실패 응답을 혼합하여 학습 배치를 구성하고, 중요도 샘플링 비율을 조정하여 오프-폴리시 학습의 불안정성을 해소했다.
효과적인 프롬프트 섭동의 특성 규명
실험을 통해 낮은 Perplexity를 유지하면서도 기존 언어(영어)와 간섭을 일으키지 않는 의사 라틴어(Pseudo-Latin) 계열의 섭동이 탐색 효율을 극대화함을 확인했다.
핵심 아이디어 이해하기
기존의 강화학습은 모델이 생성한 여러 답변 중 더 나은 것을 선택하며 발전하지만, 모델의 현재 능력으로 풀기 너무 어려운 문제는 모든 답변이 오답이 되어 학습 방향을 잃게 된다. 이는 모델이 특정 사고 방식(Local Basin)에 갇혀 있기 때문인데, 기존에는 온도를 높여 무작위성을 부여하는 방식을 썼으나 이는 답변의 품질을 심각하게 저하시키는 부작용이 있었다.
본 논문은 입력값인 프롬프트 자체에 미세한 변화를 주면 모델의 내부 활성화 상태가 변하며 완전히 새로운 사고 경로를 열 수 있다는 점에 주목했다. 마치 사람이 막다른 길에 다다랐을 때 주변 환경을 살짝 바꾸어 새로운 아이디어를 얻는 것과 유사한 원리이다.
특히 'Lorem Ipsum'과 같은 의미 없는 라틴어 텍스트는 모델이 학습한 언어 구조와는 유사하면서도 실제 문제의 의미(Semantic)를 왜곡하지 않는다. 이를 통해 모델은 문제의 본질은 유지한 채 답변을 생성하는 방식만 살짝 비틀게 되어, 기존에는 도달하지 못했던 정답 시퀀스를 발견할 수 있게 된다. 결과적으로 모델은 더 넓은 정답 공간을 탐색하며 학습 신호를 회복한다.
방법론
LOPE는 표준 롤아웃 단계에서 모든 응답이 실패할 경우에만 작동한다. 먼저 [무작위 Lorem Ipsum 단어들] → [기존 프롬프트] 순으로 결합된 섭동 프롬프트를 생성하여 추가적인 응답 G'개를 샘플링한다. 이때 100~300 토큰 길이의 무작위 라틴어 단어 뭉치를 사용한다.
학습 시에는 재샘플링된 성공 응답과 기존 실패 응답을 섞어 원래의 그룹 크기 G를 유지한다. 이때 서로 다른 프롬프트에서 생성된 응답을 비교하기 위해, 재샘플링된 응답을 원래 프롬프트와 쌍을 지어 의사 롤아웃(Pseudo Rollout)을 구성한다. [현재 정책의 확률 πθ] / [데이터 생성 시 정책 확률 πθold] 연산을 통해 중요도 샘플링 비율 ρ를 계산하고, 이를 통해 오프-폴리시 편향을 보정한다.
또한 KL Regularization 항을 제거하여 모델이 더 자유롭게 새로운 분포를 탐색하도록 허용했다. 대신 Policy Shaping 함수 f(ρ) = ρ / (ρ + γ)를 도입했다. [낮은 확률의 토큰에 대해] → [기울기 가중치를 증폭하는 연산] → [희귀하지만 성공적인 추론 경로의 학습 신호를 강화]하는 과정을 거쳐 학습 효율을 높였다.
관련 Figure

표준 롤아웃이 실패했을 때 Lorem Ipsum이 섞인 프롬프트로 재샘플링하고, 성공한 응답을 기존 실패 응답과 섞어 GRPO 학습을 진행하는 과정을 시각화한다. 이 과정이 제로 어드밴티지 문제를 어떻게 우회하는지 명확히 보여준다.
LOPE 프레임워크의 전체 워크플로우를 보여주는 다이어그램이다.
주요 결과
Qwen3-1.7B-Base 모델에서 표준 GRPO 대비 평균 2.79점의 성능 향상을 기록했으며, 특히 AIME24 벤치마크에서는 기존 6.15점에서 8.80점으로 크게 개선되었다. Qwen2.5-Math-7B 모델의 경우 훈련 신호 셰이핑을 적용했을 때 평균 53.88점을 기록하여 기본 모델(34.90점) 및 표준 GRPO(47.68점)를 압도했다.
Ablation Study 결과, 단순한 무작위 토큰이나 ASCII 문자보다 Lorem Ipsum과 같은 낮은 Perplexity의 라틴어 기반 섭동이 가장 효과적이었다. 높은 Perplexity를 가진 무작위 토큰 섭동은 오히려 모델의 문제 이해도를 떨어뜨려 성능을 저하시키는 것으로 나타났다.
시각화 분석(t-SNE) 결과, LOPE가 생성한 섭동은 문제의 의미론적 표현을 크게 왜곡하지 않으면서도 출력 분포를 효과적으로 이동시켜, 기존 방식으로는 해결하지 못했던 50개 이상의 고난도 문제를 독립적으로 해결할 수 있음을 확인했다.
관련 Figure

LOPE가 기존 방식(Base, High-temp)으로는 풀지 못한 고난도 문제들을 독자적으로 해결할 수 있음을 보여준다. 특히 어려운 문제 세트에서 LOPE만의 고유한 해결 영역이 넓음을 입증한다.
기본 프롬프트, 고온 샘플링, LOPE 간의 성공 문제 교집합을 나타내는 벤치 다이어그램이다.
기술 상세
LOPE 아키텍처는 GRPO를 기반으로 하되, 제로 어드밴티지 상황을 타개하기 위한 'Resample-and-Regroup' 메커니즘을 핵심으로 한다. 섭동으로 사용되는 Lorem Ipsum은 63개의 라틴어 단어 풀에서 균등하게 샘플링되어 생성되며, 이는 영어 기반 추론 문맥과의 간섭을 최소화하는 역할을 한다.
수학적 기반으로서 Advantage Shaping은 전체 샘플(G + G')에 대해 보상을 정규화하여, 희귀한 성공 사례에 대해 더 큰 Advantage 값을 부여한다. 이는 기존 GRPO가 선택된 G개 내에서만 정규화하여 성공 사례의 가치를 과소평가하던 문제를 해결한다.
구현 측면에서 섭동 텍스트 뒤에 'Please reason step by step...'과 같은 경계 지시어(Boundary Instruction)를 추가하여 모델이 무작위 텍스트에 휩쓸려 깨진 출력을 내는 것을 방지했다. 또한 Policy Shaping을 통해 πθ가 매우 낮은 토큰에 대해서도 안정적인 그래디언트 업데이트가 가능하도록 설계되었다.
관련 Figure

Lorem Ipsum이 자연어와 가장 유사한 낮은 Perplexity를 유지함을 보여준다. 이는 효과적인 섭동이 모델의 언어 이해 능력을 파괴하지 않으면서도 변화를 주어야 한다는 논문의 주장을 뒷받침한다.
다양한 섭동 방식에 따른 Perplexity 분포 비교 차트이다.
한계점
무작위로 생성된 텍스트를 사용하기 때문에 잠재적으로 유해하거나 편향된 표현이 포함될 가능성을 완전히 배제할 수 없다. 또한 섭동이 너무 강할 경우 모델의 제어 가능성이 떨어지고 일관성 없는 답변을 생성할 위험이 존재한다.
실무 활용
LLM의 수학적 추론이나 복잡한 논리 문제 해결을 위한 강화학습 시, 학습 데이터의 활용도를 극대화하고 어려운 문제에 대한 학습 신호를 확보하는 데 즉시 적용 가능하다.
- 수학 및 코딩 특화 LLM의 강화학습 성능 개선
- 복잡한 논리 추론 작업에서 모델의 탐색 범위 확장
- 데이터 부족 상황에서 기존 질문의 변형을 통한 학습 효율 증대
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.