개인화된 그룹 상대 정책 최적화(P-GRPO): 이질적인 선호도 정렬을 위한 새로운 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 RLHF나 GRPO 방식은 단일한 전역 목표를 최적화하기 때문에 개별 사용자의 다양한 선호도를 반영하지 못하는 한계가 있다. 특히 GRPO는 모든 샘플을 교체 가능한 것으로 간주하여 다수파의 선호도에 편향되고 소수의 신호를 억제하는 문제를 야기한다. 이를 해결하기 위해 제안된 P-GRPO는 이점 추정치를 배치 통계에서 분리하고 선호 그룹별 보상 이력을 기준으로 정규화한다. 실험 결과 P-GRPO는 표준 GRPO보다 빠른 수렴 속도와 높은 보상을 달성하며 이질적인 선호 신호를 효과적으로 복원함이 확인됐다.

배경

RLHF 및 GRPO에 대한 기본 이해, 강화학습의 이점 추정(Advantage Estimation) 개념

대상 독자

LLM 정렬 및 개인화 기술을 연구하는 AI 엔지니어 및 연구원

의미 / 영향

이 기술은 단일 모델이 다양한 가치관을 가진 사용자들에게 맞춤형 답변을 제공할 수 있게 하여 AI의 포용성을 높인다. 특히 소수 의견이 묵살되지 않도록 최적화 알고리즘 수준에서 해결책을 제시했다는 점에서 큰 의의가 있다.

섹션별 상세

기존의 RLHF 방식은 모든 사용자를 대상으로 하는 단일한 전역 보상 함수를 최적화하는 구조를 가진다. 이러한 방식은 사용자마다 서로 다른 가치관이나 취향을 가지고 있다는 사실을 충분히 반영하지 못하는 한계가 있다. 결과적으로 특정 그룹의 선호도에만 모델이 최적화되어 다른 사용자들의 요구사항을 충족하지 못하는 문제가 발생한다.

GRPO 프레임워크는 그룹 내 샘플들 사이의 상대적 보상을 비교하여 정책을 업데이트하는 온폴리시 강화학습 방식이다. 이 과정에서 사용되는 그룹 기반 정규화는 모든 데이터 샘플이 동일한 분포에서 추출되었다는 가정을 전제로 한다. 하지만 실제 환경에서는 사용자 그룹마다 보상 분포가 다르기 때문에 이러한 가정은 데이터의 이질성을 무시하는 결과를 초래한다.

데이터의 이질성을 고려하지 않는 정규화 방식은 다수의 사용자가 선호하는 답변에 학습 가중치가 쏠리는 편향을 유발한다. 이로 인해 소수 그룹이 보내는 중요한 선호 신호는 노이즈로 처리되거나 강력한 다수 신호에 의해 억제되는 현상이 나타난다. 이는 모델이 보편적인 답변만을 생성하게 만들며 개인화된 서비스 제공을 어렵게 만드는 주요 원인이 된다.

P-GRPO는 이점 추정 단계를 현재 배치의 통계치로부터 독립시키는 새로운 메커니즘을 도입한다. 기존 방식이 현재 생성된 그룹 내에서만 상대적 우위를 비교했다면 P-GRPO는 각 선호 그룹의 고유한 보상 특성을 별도로 관리한다. 이를 통해 서로 다른 보상 체계를 가진 그룹 간의 간섭을 최소화하고 각 그룹의 의도를 정확히 파악한다.

이 프레임워크는 각 선호 그룹별로 축적된 보상 이력을 바탕으로 이점을 정규화하여 대조 신호를 보존한다. 그룹별 보상 이력을 참조함으로써 현재 배치의 샘플이 해당 그룹의 기준에서 얼마나 우수한지를 객관적으로 평가할 수 있다. 이러한 접근은 다양한 선호도가 혼재된 상황에서도 각 신호를 선명하게 유지하며 학습 효율을 극대화한다.

다양한 벤치마크 작업에서 P-GRPO를 평가한 결과 표준 GRPO 대비 수렴 속도가 유의미하게 향상되었음이 확인됐다. 또한 최종적으로 도달하는 보상 수치 역시 더 높게 나타나 이질적인 선호 신호를 복원하는 능력이 탁월함을 입증했다. 이는 모델의 일반적인 성능을 저해하지 않으면서도 고도의 개인화를 달성할 수 있음을 시사한다.

실무 Takeaway

사용자층이 다양한 서비스에서 LLM을 정렬할 때 단일 보상 모델 대신 그룹별 보상 이력을 관리하는 P-GRPO를 적용하여 개인화 성능을 높일 수 있다.
GRPO 기반 학습 시 샘플 간 교체 가능성 가정을 제거하고 그룹별 정규화를 도입함으로써 소수 사용자 그룹의 선호도 누락 문제를 방지해야 한다.
최적화 단계에서 보상의 이질성을 고려하는 것이 모델의 일반적 능력을 유지하면서도 다양한 인간 선호도에 부합하는 모델을 구축하는 핵심 요소이다.

언급된 리소스

논문Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment