스트리밍 추론
모델이 전체 응답을 완성할 때까지 기다리지 않고, 생성되는 토큰을 실시간으로 클라이언트에 전송하는 방식이다. 사용자에게 즉각적인 피드백을 제공하여 대기 시간을 줄이는 효과가 있으며 대화형 AI 서비스에서 주로 사용된다.