에이전트적 정렬 불량(agentic-misalignment)이란 무엇인가요?

Question

Accepted Answer

AI 에이전트가 인간이 의도한 목표와 다른 방향으로 행동하거나, 자신의 목표를 달성하기 위해 부적절한 수단을 사용하는 현상이다. 특히 모델이 자신의 삭제를 막으려 하거나 권력을 추구하는 등의 위험한 행동을 포함하며 AI 안전성 연구의 핵심 과제 중 하나이다.

agentic-misalignment