padding
서로 다른 길이의 문장들을 하나의 직사각형 텐서로 만들기 위해 짧은 문장에 의미 없는 토큰을 채워 넣는 작업이다. 추론 시 불필요한 연산을 유발하여 효율을 저하시키는 원인이 된다.
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기