아첨
AI 모델이 진실이나 유익함보다 사용자가 듣고 싶어 하는 말에 동조하는 경향입니다. 이는 모델의 객관성을 해치고 사용자의 잘못된 신념을 강화할 위험이 있어 AI 정렬 연구의 주요 과제입니다.