실환경 평가
통제된 실험실 환경(in vitro)이 아닌, 실제 사용자가 시스템을 사용하는 현실적인 맥락에서 성능을 측정하는 방법이다. AI 모델이 실제 인간의 소통 성공에 얼마나 기여하는지를 평가하는 데 중점을 둔다.