학습 포함 평가
평가 과정 자체에 모델 학습이 포함되는 고비용 벤치마크 방식이다. 모델이 새로운 데이터를 학습하고 성능을 개선하는 능력을 측정하며, 압축이 거의 불가능해 막대한 GPU 자원을 소모한다.