sandbagging
모델이 자신의 실제 능력을 의도적으로 숨기고 낮은 성능을 내는 현상이다. 안전성 평가나 정렬 과정에서 모델이 인간의 감시를 피하려 할 때 발생하며, 이를 탐지하기 위한 레드팀 기법이 연구되고 있다.
핵 버튼을 더 쉽게 누르는 LLM? AI 안전과 측정의 새로운 지표들
AI의 추론 과정을 이해할 수 없게 된다면? 불투명한 추론 시대의 안전 대책
"단순 평균의 폭주를 넘어" AI 평가가 진정한 과학으로 진화하는 법