정렬 연구
AI 모델의 목표와 행동을 인간의 가치 및 의도와 일치시키려는 연구 분야이다. 모델이 인간의 지시를 정확히 따르고 유해한 행동을 하지 않도록 보장하는 것이 핵심이며, AI 시스템이 고도화됨에 따라 그 중요성이 커지고 있다.