본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

정책 최적화 (policy-optimization) 용어 설명 | AI Trends

policy-optimization

정책 최적화

중급

강화학습에서 에이전트가 보상을 최대화하기 위해 취하는 행동 지침(정책)을 직접적으로 수정하며 학습하는 방식이다. LLM에서는 특정 프롬프트에 대해 최적의 응답 토큰을 생성하도록 가중치를 갱신하는 과정을 의미한다.

비슷한 개념

agentic-reinforcement-learning agent-fine-tuning rft reinforcement-fine-tuning operating-instructions credit-assignment policy-learning reinforcement-pre-training

← 용어 사전 전체 보기