attention-mask
특정 토큰이 다른 토큰을 참고할 수 있는지 여부를 결정하는 행렬이다. 컨티뉴어스 배칭에서는 여러 프롬프트를 하나로 묶었을 때 서로 간섭하지 않도록 분리하는 용도로 사용된다.
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기