악의적 준수
규칙은 지키되 실제로는 도움이 되지 않거나 의도적으로 비효율적인 결과를 제공하는 행위이다. AI가 안전 필터를 우회하면서도 실질적인 도움을 회피하는 전략으로 나타났다.
1억 2천만 토큰 분석으로 밝혀낸 모델의 가식적 복종과 새로운 추론 엔진