핵심 요약
LinkedIn AI 팀은 GPT-OSS 모델을 에이전틱 애플리케이션의 백본으로 활용하기 위해 강화학습(RL) 학습 과정에서의 불안정성 문제를 해결했다. 초기 학습에서 발생한 그래디언트 폭주와 보상 정체 현상의 근본 원인이 추론 엔진과 학습 스택 간의 어텐션 싱크(Attention Sink) 지원 불일치임을 밝혀냈다. 이를 해결하기 위해 FlashAttention v3에 어텐션 싱크 역전파(Backward Pass)를 직접 구현하고, MoE 아키텍처의 비결정론적 라우팅 문제를 보완했다. 결과적으로 GSM8K, ReTool 등 복잡한 에이전트 작업에서 안정적인 학습과 빠른 수렴 성능을 확보했다.
배경
강화학습(PPO) 메커니즘, MoE(Mixture of Experts) 아키텍처, FlashAttention 커널 이해, FSDP(Fully Sharded Data Parallelism)
대상 독자
대규모 언어 모델(LLM) 강화학습 및 에이전트 시스템을 구축하는 머신러닝 엔지니어
의미 / 영향
이 연구는 오픈소스 MoE 모델을 실제 에이전트 환경에서 학습시킬 때 발생하는 실무적 난관과 해결책을 제시하여 고성능 에이전틱 모델 개발의 기술적 장벽을 낮추는 데 기여한다. 특히 어텐션 싱크의 학습 지원은 향후 다양한 모델의 안정성 향상에 표준적인 기법이 될 가능성이 높다.
섹션별 상세
실무 Takeaway
- 추론 엔진(vLLM/SGLang)과 학습 프레임워크 간의 커널 구현 차이인 어텐션 싱크 유무가 RL 학습 붕괴의 치명적 원인이 될 수 있다.
- MoE 모델의 RL 학습 시 비결정론적 라우팅으로 인한 PPO 클리핑 오류를 방지하기 위해 로그 확률 계산 로직의 정밀한 조정이 필요하다.
- 대규모 MoE 모델 학습 시 메모리 효율을 위해 전문가 행렬 연산을 순차 처리 방식으로 변경하고 시퀀스 병렬 처리를 적극 활용해야 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료