느낌 기반 테스트
데이터나 정량적 지표 대신 개발자의 직관과 주관적인 느낌에 의존하여 AI 모델의 성능을 평가하는 방식이다. 결과의 일관성을 보장하기 어렵고 프롬프트 수정이 실제 개선으로 이어졌는지 객관적으로 증명할 수 없다는 한계가 있다.