QK 정규화
어텐션 메커니즘의 Query와 Key에 RMSNorm을 적용하여 학습 중 발생하는 손실 스파이크를 방지하고 안정성을 높이는 기술이다.
INT8 양자화로 사전 학습 성능 격차 해소, SageBwd의 진화
DeepSeek를 넘어선 모델들? 2026년 초 오픈 웨이트 LLM 아키텍처 총정리
DeepSeek를 넘어선 혁신? 2026년 초를 달군 10대 오픈 웨이트 LLM 아키텍처 총정리