스칼라 보상
모델의 출력을 0에서 1 사이의 숫자나 합격/불합격처럼 단일 수치로 평가하는 방식이다. 전체적인 성능 파악은 쉬우나 구체적으로 어떤 부분이 틀렸는지에 대한 정보 손실이 크다는 단점이 있다.
보상 가설의 수학적 한계: 강화학습이 놓치고 있는 세 가지 근본 문제
스칼라 보상은 만능일까? 강화학습의 3대 도그마를 파헤치다
미분 없이 학습 가능할까? 스칼라 보상만으로 신경망 훈련 성공
18번의 실패 끝에 성공한 그라디언트 없는 신경망 학습 실험
데이터 50개로 성능 10% 향상? 수치 대신 말로 가르치는 프롬프트 최적화