ragged-batching
길이가 서로 다른 여러 시퀀스를 패딩 없이 하나의 연속된 텐서로 결합하여 처리하는 방식이다. 어텐션 마스크를 통해 각 시퀀스의 경계를 구분함으로써 GPU 자원 낭비를 없애고 처리 효율을 극대화한다.
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기