테스트 시간 연산 스케일링
모델의 학습 단계가 아닌 추론(테스트) 단계에서 더 많은 연산 자원을 투입하여 결과물의 품질을 높이는 전략이다. 여러 후보를 생성하거나 자기 비판 과정을 거치는 방식이 포함된다.
T-RANK와 USI로 다국어 벤치마크 번역 품질의 한계를 넘다