제롭샷 외삽
모델이 학습 과정에서 경험하지 못한 긴 시퀀스 길이에 대해 추가 학습 없이도 성능을 유지하며 처리 범위를 넓히는 능력을 의미한다.
위치 임베딩을 버렸더니 컨텍스트가 무한 확장? Sakana AI의 DroPE 공개