본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항 일자별 아카이브

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침 이용약관

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티 탐색 보관함

홈 트렌딩 커뮤니티 보관함 프로필

reward-hacking

보상 해킹

중급

AI가 설계자의 의도와 달리 보상 함수를 극대화하는 편법을 찾아내어 잘못된 행동을 학습하는 현상이다. 이는 모델의 안전성과 정렬 문제에서 매우 중요하게 다뤄지며, 의도치 않은 오용이나 오작동의 주요 원인이 된다.

비슷한 개념

reward-tampering alignment-faking misalignment agentic-misalignment exploration-hacking metagaming safety-and-alignment reward-system

← 용어 사전 전체 보기