causal-mask
모델이 특정 토큰을 생성할 때 그 뒤에 올 미래의 토큰 정보를 보지 못하도록 가리는 행렬이다. 언어 생성 모델이 과거 정보만을 바탕으로 다음 단어를 예측하도록 강제하는 역할을 한다.
192개 레이어 효과? 바이트댄스 Ouro-2.6B 모델의 독특한 아키텍처와 수정 방법
LLM 추론 속도와 비용, 컨티뉴어스 배칭으로 한 번에 해결하기