예의 편향
사회적 관계나 학습된 매너로 인해 상대방에 대한 솔직한 비판을 피하고 우호적인 태도를 유지하려는 경향이다. AI 모델의 경우 학습 데이터 내의 인간 대화 패턴을 모방하여 유명 모델의 답변을 검토할 때 비판 대신 보완적 시각이라는 표현으로 결함을 덮으려는 현상으로 나타난다.
클로드가 GPT를 비판할 때 이름을 가리면 더 독해진다? 모델 간 예의 편향의 발견