정렬 불량
AI 시스템의 목표나 행동이 인간의 의도, 윤리적 가치 또는 설계된 목적과 일치하지 않는 상태를 의미한다. 이는 AI가 예기치 않거나 해로운 방식으로 작동할 위험을 초래한다.
"LLM 에이전트의 꼼수 잡는다" 보상 해킹 탐지 오픈소스 RewardHackWatch 공개