추론 시간 스케일링(inference-time-scaling)이란 무엇인가요?

Question

Accepted Answer

모델이 답변을 생성하는 과정에서 더 많은 연산 자원을 투입하여 복잡한 문제를 해결하는 기법이다. 사고의 사슬(CoT)을 길게 생성하거나 여러 경로를 탐색함으로써 추론 능력을 극대화한다. 이는 학습 단계의 스케일링을 넘어 추론 단계에서도 성능 향상을 꾀할 수 있다는 점에서 중요하다.

inference-time-scaling

비슷한 개념