본문으로 건너뛰기
적응형 레이어별 섭동: LLM 강화학습을 위한 오프-폴리시 교정의 통합 | AI Trends