GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

긴 문서 및 다중 문서 분석에 필요한 장문맥 이해 능력을 강화하기 위한 실용적 경로를 제시한다. 23K 샘플의 RLVR 데이터세트와 9개 태스크로 구성된 다중 보상 구조, 그리고 TMN-Reweight를 통해 cross-task 보상 스케일과 난이도 편향을 함께 조정한다. 이 조합은 기존 GRPO 기반 접근보다 장문맥 성능과 일반화 능력을 향상시키는 실질적 효과를 나타낸다.

왜 중요한가

핵심 기여

Capability-oriented RLVR 데이터세트

9개 태스크로 구성된 23K 샘플의 RLVR 데이터세트를 공개하고, 실제 문서와 합성 문서에서 QA 쌍을 생성한다. 각 태스크는 고유의 보상 함수를 가지며, 14K의 오픈소스 샘플과 9K의 합성 샘플로 구성된다. vanilla GRPO로 학습 시 QwenLong-L1.5 데이터와 비교해 성능 향상을 보이며, 4B 및 30B 규모에서 long-context 평가에서 강건한 개선을 확인한다.

TMN-Reweight: 다중태스크 학습을 위한 보상 스케일 정렬 및 난이도 보정

Task-level mean normalization으로 cross-task 보상 스케일 차이를 줄이고, difficulty-adaptive four-quadrant reweighting으로 프롬프트 난이도 편향을 보정한다. 이 두 가지 요소를 결합해 다양한 보상 메트릭 간의 gradient 크기를 균형 있게 맞추고, 특히 CorpusQA 등 집합적 정보 통합이 필요한 태스크에서 성능을 크게 향상시킨다.

실험적 성과 및 일반화

4B 규모에서 GRPO 대비 평균 0.8 포인트 증가(62.2→63.0), 30B 규모에서도 69.8로 상향. CorpusQA에서 +4.5, LBV2에서 +1.6 등 하위 태스크에서도 안정적 개선을 보이며, 일반화 측면에서 MMLU-Pro, AIME, GPQA 및 LongMemEval 등 추가 벤치마크에서도 성능 유지 또는 향상을 확인한다. 160K 컨텍스트로 학습한 정보통합 능력이 더 긴 시퀀스 평가에서도 우수한 일반화 성능으로 확장된다.

데이터-기반 진단적 데이터 보강의 효율성

P4 반복정합에서 각 버전 간 데이터 확장이 동일 비율로 성능을 증가시키지 않는다는 진단 하에, 도메인·태스크별 필요 샘플을 보강하는 접근으로 데이터 효율성을 확보한다. 이는 4B 모델에서 MRCR 및 CorpusQA 등 다중 태스크 성능의 균형 개선으로 이어진다.

오픈 소스 접근성

데이터세트, 파이프라인, 학습 코드를 모두 공개해 연구 재현성과 재사용성을 높인다.

핵심 아이디어 이해하기

출발점은 긴 문맥에서의 이해를 위한 기초 개념이다. 기존 방법은 긴 컨텍스트를 단일 패턴의 검색/추출으로 다루는 경향이 있어 범용성에 한계가 있다. 이 논문은 9가지 핵심 능력으로 분류된 태스크로 구성된 23K RLVR 데이터를 제시하고, 각 태스크에 고유한 보상 함수를 부여한다. 본 데이터로 GRPO 기반 학습의 한계를 보완하고, TMN-Reweight를 통해 cross-task 보상 규모 차이를 정렬하며, 난이도에 따른 학습 신호를 적절히 재가중한다. 그 결과 다양한 장문맥 벤치마크에서 평균 성능이 향상되고, 다중 태스크 학습의 일반화 성능이 개선된다.

방법론

단락 1: 전체 접근 방식과 핵심 아이디어. 9개 태스크의 capability taxonomy를 기반으로 23K RLVR 샘플을 구축하고, 각 태스크에 고유 보상 함수를 부여한다. 데이터의 두 축은 오픈소스(약 14K)와 합성 샘플(약 9K)로 구성되며, 네 단계 파이프라인(P1~P4)으로 처리한다. 단락 2: 데이터 파이프라인의 구체적 구성. P1 소스 수집, P2 태스크별 필터링/할당, P3 샘플 구성(Open-source, Synthetic 트랙 각각), P4 반복적 정제 및 벤치마크 진단. 단락 3: TMN-Reweight의 구성. Step1: Task-level Mean Normalization으로 cross-task 스케일 차이 조정. Step2: Difficulty-adaptive reweighting으로 프롬프트 난이도에 따른 가중치 조정. 4-Quadrant 전략으로 hard/easy 프롬프트에 대해 양의/음의 이점의 크기를 다르게 조정한다. 단락 4: 대규모 실험 설계. 4B/30B 모델에서 GRPO와 TMN-Reweight 비교, 8K 샘플 하에서 ablation, 13-gram overlap 필터링 및 다단계 QA 검증 등 데이터 품질 관리가 포함된다. 단락 5: 평가 프로토콜. LongBench-V2, MRCR, Frames, LongBench, DocMath, CorpusQA 등 벤치마크를 동일 프로토콜로 평가한다.

주요 결과

주요 벤치마크 결과: 4B에서 GoLongRL(GRPO) 62.2, TMN-Reweight 도입 시 63.0으로 증가. 30B에서 69.8로 상승. CorpusQA에서 TMN-Reweight가 69.6으로 최상, CorpusQA와 LBV2에서 특히 강한 개선을 보임. MRCR은 GRPO가 다소 강한 편이나 TMN-Reweight는 다중 태스크 협력에 더 안정적인 학습 신호를 제공함. 4B 모델의 Ablation에서 𝛼=0.8이 최적의 trade-off를 보임. 일반 지능 벤치마크에서도 MMLU-Pro/AIME/GPQA에서 향상 확인. 160K 컨텍스트로 학습한 능력은 더 긴 시퀀스에서도 일반화되며 MRCR 128K–512K 및 512K–1M 구간에서 길이 확장에도 성능이 증가한다.

실무 활용

긴 문서 혹은 다중문서 분석이 필요한 응용에 적용 가능하며, 데이터 커버리지와 보상 다각화를 통해 장문맥 이해를 강화한다.

다문서 요약 및 사실 확인
장문 대화에서의 문맥 기억 및 추적
대규모 법률/재무 문서의 교차-문헌 질의 응답
지식 베이스 기반의 코퍼스 수준 정보 통합 및 질의 응답

코드 공개 여부: 공개

코드 저장소 보기

키워드

long-context RLverifiable rewardscapability-oriented datasettask-level normalizationdifficulty-adaptive weightingTMN-ReweightGRPO