rlhf
인간의 선호도를 반영하여 AI 모델을 미세 조정하는 기법이다. 모델의 답변이 인간의 윤리나 의도에 부합하도록 유도하지만 외부적 제약에 가깝다는 비판도 존재한다.
내 글이 AI처럼 느껴지는 이유? 50가지 상투적 패턴 완벽 정리
소리 지르면 뚫리는 AI 보안? DystopiaBench로 증명된 RLHF의 한계
LLM은 이해하는 것이 아니라 이해하는 것처럼 보일 뿐이다
AI의 '—' 남발, 고칠 수 없는 이유가 있었다? 언어학으로 본 AI의 비밀
AI의 속마음이 통째로 유출됐다? 모델 내부의 '생각의 흐름' 실체 공개