출력 레이어 필터링
모델이 생성한 답변이 사용자에게 전달되기 전, 특정 기준이나 안전 정책에 따라 내용을 수정, 제한 또는 차단하는 후처리 단계이다.
AI는 왜 특정 관점만 대변할까? 스틸맨 프롬프팅으로 밝혀낸 모델의 숨겨진 편향성