부분 검증 가능성
하나의 목표를 달성하기 위한 여러 올바른 경로가 존재함에도 불구하고, 특정 기준 데이터와 일치하는지 여부로만 성공을 판단하여 학습 신호가 부정확해지는 현상입니다.
오픈소스 GUI 에이전트의 한계 돌파, 81K 데이터와 새로운 RL 기법으로 성능 극대화