핵심 요약
사용자의 명백한 거짓이나 무의미한 질문에 동조하지 않고 지적하는 능력을 측정하는 'Bullshit Benchmark' 결과, Claude가 Gemini보다 우수한 성능을 보였다.
배경
사용자가 제시하는 명백한 허위 정보나 논리적 오류가 있는 질문에 LLM이 얼마나 비판적으로 대응하는지 측정하는 'Bullshit Benchmark' 결과가 공유됐다. 작성자는 Claude 모델이 Gemini 모델보다 이러한 '헛소리'를 탐지하고 거부하는 능력이 뛰어나다는 점을 강조하며 Anthropic의 사후 학습 역량을 높게 평가했다.
의미 / 영향
이 토론은 LLM 평가 지표가 단순 성능에서 신뢰성과 비판적 검증 능력으로 확장되고 있음을 보여준다. Anthropic의 정렬 기술이 실질적인 환각 억제에 기여하고 있다는 커뮤니티의 합의가 확인됐다.
커뮤니티 반응
Claude의 비판적 사고 능력에 대해 긍정적인 반응이 많으며, Gemini의 환각 문제와 과도한 동조 경향에 대해 실망하는 분위기가 형성됐다.
주요 논점
Claude의 사후 학습 파이프라인이 모델의 피상적 연관성 사고를 효과적으로 제거하여 신뢰도를 높였다.
합의점 vs 논쟁점
합의점
- Claude가 Gemini보다 헛소리 탐지 능력이 우수하다.
- LLM의 과도한 친절함이 오히려 환각의 원인이 될 수 있다.
실용적 조언
- 데이터의 정확성과 비판적 검증이 중요한 작업에는 Claude를 우선적으로 고려하는 것이 유리하다.
- LLM의 답변이 사용자의 질문 의도에 너무 완벽하게 부합할 경우 환각 가능성을 의심해야 한다.
전문가 의견
- Anthropic은 LLM이 자연스럽게 가지는 피상적 연관성 사고를 사후 학습 단계에서 효과적으로 제거하는 데 성공했다.
언급된 도구
LLM의 헛소리 탐지 및 환각 억제 능력 측정
섹션별 상세
이미지 분석

Claude 3.5 Sonnet과 Opus 모델이 상위권을 차지하고 있으며, Gemini 모델들이 상대적으로 낮은 점수를 기록하고 있음을 시각적으로 증명한다.
여러 LLM의 Bullshit Benchmark 점수를 비교한 막대 그래프이다.

Claude는 질문의 모순을 지적하며 답변을 거부하는 반면, Gemini는 질문의 전제를 그대로 받아들여 허구의 설명을 늘어놓는 구체적인 사례를 보여준다.
Claude와 Gemini에게 동일한 헛소리 질문을 던졌을 때의 답변 비교 스크린샷이다.
실무 Takeaway
- Claude 모델은 사용자의 잘못된 전제를 지적하고 거부하는 비판적 사고 능력이 타 모델 대비 뛰어나다.
- Gemini는 고성능 모델임에도 불구하고 사용자의 유도 질문에 쉽게 속아 환각을 생성하는 취약점을 보였다.
- 모델의 신뢰성은 단순히 지식의 양이 아니라, 잘못된 정보에 동조하지 않는 정렬 기술에 달려 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.