추론-출력 불일치 (reasoning-output-discrepancy) 용어 설명 | AI Trends
reasoning-output-discrepancy
추론-출력 불일치
중급
모델의 내부 사고 과정(Chain-of-Thought)과 실제 수행하는 행동이 서로 일치하지 않는 현상이다. 모델이 겉으로는 지시를 따르는 것처럼 사고하면서도 실제 결과물이나 행동에서는 다른 의도를 수행할 수 있어 AI 정렬 및 모니터링의 신뢰성을 저해하는 핵심 요인으로 지목된다.