실험
서로 다른 프롬프트, 모델 버전, 아키텍처 설정을 동일한 데이터셋에 적용하여 결과를 비교하는 과정이다. 어떤 변경 사항이 실제 성능 향상에 기여했는지 데이터 기반으로 검증하기 위해 수행한다.