KL 정규화
새로운 학습 정책이 기존 정책에서 너무 멀어지지 않도록 제한하여 학습의 안정성을 높이고 급격한 성능 저하를 방지하는 기법입니다.
오픈소스 GUI 에이전트의 한계 돌파, 81K 데이터와 새로운 RL 기법으로 성능 극대화