안전 및 정렬
AI 모델의 목표와 행동이 인간의 가치관 및 의도와 일치하도록 설계하는 연구 분야이다. 모델이 예상치 못한 위험한 행동을 하거나 인간의 지시를 오해하여 해로운 결과를 초래하지 않도록 제어하는 것이 핵심 목적이다.