컨텍스트 크기
모델이 한 번에 처리할 수 있는 최대 토큰의 양을 의미한다. 이 값이 커질수록 더 긴 대화나 문서를 이해할 수 있지만 메모리 사용량과 연산량이 증가하여 성능에 영향을 줄 수 있다. 추론 시 KV 캐시 메모리 할당량과 직접적으로 연관되어 성능 병목의 원인이 되기도 한다.