본문으로 건너뛰기
RLHF와 LLM 학습에 대한 고찰: 정적 보상 모델링의 한계와 다중 에이전트 RL로의 확장 | AI Trends