본문으로 건너뛰기
기업용 AI의 '정렬'은 얇은 RLHF 층일 뿐: DystopiaBench를 통한 안전 프로토콜 우회 측정 | AI Trends