automated-behavioral-audit
감사 모델과 테스트 모델이 대화를 나누고 제3의 모델이 이를 평가하는 자동화된 검증 프로세스입니다. 인간의 개입 없이 대규모로 모델의 안전성과 편향성을 정량적으로 측정할 수 있는 방법론입니다.
Claude 4.5, 자살 위기 대응 98% 성공... AI의 '아첨'도 대폭 줄였다