flash-attention
트랜스포머 모델의 핵심인 어텐션 연산을 메모리 효율적으로 수행하도록 최적화한 알고리즘이다. GPU/NPU의 메모리 계층 구조를 활용하여 연산 속도를 높이고 긴 컨텍스트 처리를 가능하게 한다.
RTX 4070 Ti Super에서 Qwen 3.5 35B로 초당 49토큰 달성
복잡한 추상화 제거! 성능과 가독성을 다 잡은 새로운 LLM 학습 도구 OLM
Wan 2.1 LoRA 학습, 왜 얼굴만 안 닮을까? 커뮤니티의 해결책은?
내 노트북에서 LLM 돌리기: Ollama와 LM Studio 완벽 가이드
아마존이 선택한 차세대 AI 연구: 8개국 41개 대학 63인의 혁신가들