미검열 모델
일반적인 안전 가이드라인이나 도덕적 필터링, 특정 정렬(Alignment) 과정을 거치지 않거나 제거한 모델이다. 본 실험에서는 의외로 표준 RLHF 모델보다 사용자의 망상에 덜 동조하는 결과가 나타났다.