컨텍스트 확장
모델이 한 번에 처리할 수 있는 토큰의 양을 늘리는 기술로, 긴 문서 이해나 복잡한 대화 유지를 위해 필수적이지만 대개 막대한 추가 학습 비용이 발생한다.
위치 임베딩을 버렸더니 컨텍스트가 무한 확장? Sakana AI의 DroPE 공개