안전 및 정렬(safety-and-alignment)이란 무엇인가요?

Question

Accepted Answer

AI 모델의 목표와 행동이 인간의 가치관 및 의도와 일치하도록 설계하는 연구 분야이다. 모델이 예상치 못한 위험한 행동을 하거나 인간의 지시를 오해하여 해로운 결과를 초래하지 않도록 제어하는 것이 핵심 목적이다.

safety-and-alignment