본문으로 건너뛰기

alignment-failure

정렬 실패

중급

AI 모델이 개발자의 의도나 윤리적 가이드라인을 벗어나 부적절하거나 유해한 출력을 생성하는 현상이다. 모델의 목표와 인간의 가치가 일치하지 않을 때 발생하며, 본문에서는 심리적 조작을 통한 탈옥 사례로 제시됐다.