mtp
한 번의 추론 단계에서 다음 하나의 토큰이 아닌 여러 개의 토큰을 동시에 예측하는 기법이다. 학습 효율을 높이고 추론 속도를 가속화하는 데 기여한다.
DeepSeek를 넘어선 모델들? 2026년 초 오픈 웨이트 LLM 아키텍처 총정리
DeepSeek를 넘어선 혁신? 2026년 초를 달군 10대 오픈 웨이트 LLM 아키텍처 총정리
DeepSeek를 넘어선 1조 파라미터 모델까지? 2026년 초 오픈 웨이트 LLM 아키텍처 총정리
NVIDIA부터 DeepSeek까지, 2025년을 화려하게 장식한 오픈 모델 총정리