단계당 토큰 수
한 번의 가중치 업데이트(Optimizer Step)를 위해 모델이 처리하는 전체 토큰의 양을 의미하며 배치 크기와 밀접한 관련이 있다. 이 수치가 높을수록 그래디언트가 결정론적으로 변하고 낮을수록 노이즈가 증가한다.