정렬 어긋남 평가
AI 모델의 목표나 행동이 인간의 의도나 안전 가이드라인에서 벗어나는 현상을 측정하고 평가하는 프로세스이다. 모델이 잠재적으로 위험하거나 의도치 않은 방향으로 작동하는지 사전에 파악하여 안전성을 확보하는 데 필수적이다.