핵심 요약
기존 RLHF는 방대한 인간 피드백 데이터가 필요하며 데이터 규모가 커져도 성능 향상이 정체되는 한계가 있었다. 이 연구는 온라인 학습과 불확실성 기반 탐색을 결합하여 데이터 효율을 10배 이상 높였으며, 적은 비용으로도 고성능 모델 정렬이 가능함을 입증하여 안전한 AI 개발의 새로운 경로를 제시했다.
왜 중요한가
기존 RLHF는 방대한 인간 피드백 데이터가 필요하며 데이터 규모가 커져도 성능 향상이 정체되는 한계가 있었다. 이 연구는 온라인 학습과 불확실성 기반 탐색을 결합하여 데이터 효율을 10배 이상 높였으며, 적은 비용으로도 고성능 모델 정렬이 가능함을 입증하여 안전한 AI 개발의 새로운 경로를 제시했다.
핵심 기여
온라인 RLHF 알고리즘 개발
인간의 선택 데이터가 수집되는 즉시 보상 모델과 언어 모델을 점진적으로 업데이트하여 데이터 활용도를 극대화하는 온라인 학습 프레임워크를 구축했다.
Affirmative Nudge 기법 도입
온라인 학습 중 발생하는 성능 급락(tanking) 현상을 방지하기 위해 강화 신호에 작은 양수 값을 더해 학습 안정성을 확보하는 기법을 제안했다.
에피스테믹 신경망 기반 보상 모델링
보상 모델의 불확실성을 측정할 수 있는 ENN 구조를 적용하여, 모델이 가장 헷갈려 하는 정보 가치가 높은 응답 쌍을 선별할 수 있게 했다.
정보 지향 탐색을 통한 데이터 효율성 입증
불확실성이 높은 데이터를 우선 학습함으로써 2만 개의 레이블만으로 기존 오프라인 방식의 20만 개 레이블과 대등한 성능을 달성했다.
핵심 아이디어 이해하기
RLHF는 모델의 응답에 대해 인간이 선호도를 표시하고, 이를 바탕으로 보상 모델을 학습시켜 언어 모델을 최적화하는 과정이다. 기존 오프라인 방식은 미리 수집된 고정된 데이터셋을 사용하므로, 모델이 발전함에 따라 기존 데이터가 더 이상 유용한 정보를 제공하지 못하는 데이터 정체 문제가 발생한다. 이는 이미 다 아는 문제집을 반복해서 푸는 것과 같아 학습 효율이 떨어진다.
이 논문은 모델이 직접 생성한 응답 중 보상 모델이 가장 판단하기 어려워하는 응답 쌍을 골라 인간의 피드백을 받는 온라인 탐색 방식을 도입했다. 학생이 모르는 문제만 골라 선생님께 질문하여 학습 시간을 단축하는 것과 같은 원리이다. 이를 위해 에피스테믹 신경망(ENN)을 사용하여 보상 모델의 불확실성을 수학적으로 측정하고, 정보 가치가 가장 높은 데이터를 실시간으로 선별한다.
결과적으로 온라인 학습을 통해 모델은 항상 자신의 현재 수준에서 가장 배우기 적절한 데이터를 학습하게 된다. 특히 학습 과정에서 성능이 갑자기 떨어지는 현상을 막기 위해 긍정적인 자극(Affirmative Nudge)을 추가하여 안정성을 높였다. 이러한 접근은 데이터가 늘어날수록 성능 향상 폭이 더 커지는 강력한 스케일링 법칙을 보여준다.
방법론
전체적인 접근 방식은 온라인 RLHF 프레임워크를 기반으로 한다. 인간의 선택 데이터가 배치 단위로 수집될 때마다 보상 모델(RM)과 언어 모델(LM)을 동시에 업데이트한다. LM 업데이트에는 REINFORCE 알고리즘의 변형을 사용하며, RM이 실시간으로 제공하는 강화 신호를 바탕으로 정책 경사(Policy Gradient)를 계산하여 가중치를 갱신한다.
핵심 메커니즘인 Affirmative Nudge는 정책 업데이트 수식에 적용된다. [보상 모델이 예측한 선호 확률 P - 0.5 + ε] 연산을 수행하여 최종 강화 신호를 얻는다. 여기서 ε는 작은 양수 상수로, 모델이 긍정적인 피드백을 더 안정적으로 수용하게 유도한다. 이 계산 결과가 양수이면 해당 응답의 생성 확률을 높이고, 음수이면 낮추는 방향으로 가중치를 조정하여 온라인 학습의 고질적 문제인 성능 급락을 방지한다.
정보 지향 탐색(IDE)을 위해 보상 모델의 헤드를 MLP 앙상블로 구성한 에피스테믹 신경망(ENN)을 사용한다. 100개의 Prior Network와 100개의 Differential Network를 통해 응답 쌍에 대한 선호 확률의 분산을 계산한다. [여러 신경망의 예측값들 → 분산 계산 → 불확실성 수치화] 과정을 거쳐 분산이 최대인 응답 쌍을 인간에게 평가받을 쿼리로 선택한다. 이는 보상 모델이 가장 확신하지 못하는 영역의 데이터를 집중적으로 수집하여 학습 효율을 극대화하는 전략이다.
주요 결과
Gemma 9B 모델을 사용한 실험에서 제안된 알고리즘은 2만 개 미만의 레이블로 오프라인 RLHF가 20만 개 레이블을 사용했을 때의 성능을 달성했다. 이는 데이터 효율성 측면에서 10배 이상의 개선을 의미하며, 온라인 학습과 능동적 탐색의 결합이 실질적인 비용 절감으로 이어짐을 확인했다.
데이터 규모에 따른 성능 확장성 분석 결과, 온라인 탐색 방식은 오프라인 방식보다 훨씬 가파른 스케일링 법칙을 따르는 것으로 나타났다. 100만 개의 레이블을 사용할 경우, 오프라인 방식이 10억 개의 레이블을 사용해야 도달할 수 있는 성능을 낼 것으로 예측되었다. 이는 약 1,000배의 데이터 효율 차이를 시사한다.
Ablation Study를 통해 Affirmative Nudge의 효과도 입증되었다. Nudge가 없는 기존 온라인 RLHF는 특정 학습 시점 이후 성능이 급격히 하락하는 현상을 보였으나, Nudge를 추가한 모델은 학습이 진행됨에 따라 안정적으로 성능이 우상향하는 결과를 보였다.
실무 활용
인간 피드백 수집 비용이 매우 높은 전문 도메인에서 모델을 정렬할 때 극적인 비용 절감이 가능하다. 특히 데이터가 늘어날수록 효율이 기하급수적으로 좋아지므로 대규모 모델 개발에 유리하다.
- 전문 지식이 필요한 수학 및 코딩 특화 모델의 고효율 정렬
- 실시간 사용자 피드백을 반영하여 성능을 지속적으로 개선하는 온라인 서비스
- 데이터 수집 예산이 제한된 환경에서의 도메인 특화 LLM 학습
- 복잡한 추론 능력이 필요한 AI 에이전트의 행동 양식 최적화
기술 상세
아키텍처는 Gemma 9B를 백본으로 사용하며, 보상 모델은 마지막 레이어 임베딩을 입력받는 MLP 헤드 앙상블로 구성된다. 100개의 고정된 Prior Network와 100개의 학습 가능한 Differential Network를 결합하여 에피스테믹 불확실성을 모델링한다. 각 MLP는 2개의 은닉층(너비 1024 또는 256)을 가진다.
정책 업데이트 시 앵커(Anchor) 모델을 유지하며 지수 이동 평균(EMA)을 통해 파라미터를 정규화한다. 파라미터 θ를 업데이트할 때 [η * 이전 앵커 + (1 - η) * 현재 파라미터] 연산을 통해 새로운 앵커를 생성하고, 현재 파라미터가 이 앵커에서 너무 멀어지지 않도록 규제한다. 이는 온라인 학습의 안정성을 높이는 핵심 장치이다.
탐색 전략은 IDS(Information-Directed Sampling)의 변형을 따른다. 각 프롬프트에 대해 16개의 응답 후보를 생성한 후, ENN을 통해 선호도 확률의 분산이 가장 큰 쌍을 쿼리로 선택한다. 학습 시에는 백본 파라미터를 동결하고 보상 모델의 헤드 부분만 개별적으로 업데이트하여 연산 효율을 높였다.
한계점
온라인 학습 중 발생하는 성능 하락을 Affirmative Nudge로 완화했으나, 보상 모델의 불확실성 외에 언어 모델 자체의 정책 불확실성까지는 통합적으로 고려하지 못했다. 또한 현재 연구는 단일 턴 대화에 집중되어 있어 다중 턴 대화나 복잡한 에이전트 환경으로의 확장은 추가 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료