sliding-window-attention
전체 문맥 대신 고정된 크기의 최근 윈도우 내 토큰들만 참조하여 연산량을 줄이는 기법이다. 긴 대화에서도 메모리 사용량을 일정하게 유지할 수 있게 해주어 자원이 제한된 환경에서 유용하다.
4GB 램 아이폰으로 일본 여행? 오프라인 AI 구축기