TL;DR
RoPE가 긴 컨텍스트를 다룰 때 위치 식별과 토큰 식별 두 가지 핵심 목표를 동시에 달성하기 어렵다는 이론적 증거를 제시한다. 컨텍스트 길이가 늘어날수록 RoPE의 인덕티브 바이어스가 약해지고 예측 불가능해지며, 결과적으로 긴 문맥에서의 정확한 위치/토큰 구분이 손실된다. 이로 인해 길이 확장에만 의존하는 접근법의 한계가 뚜렷해지며, 새로운 위치 인코딩 기제가 필요하다는 시사점을 제공한다.
왜 중요한가
RoPE가 긴 컨텍스트를 다룰 때 위치 식별과 토큰 식별 두 가지 핵심 목표를 동시에 달성하기 어렵다는 이론적 증거를 제시한다. 컨텍스트 길이가 늘어날수록 RoPE의 인덕티브 바이어스가 약해지고 예측 불가능해지며, 결과적으로 긴 문맥에서의 정확한 위치/토큰 구분이 손실된다. 이로 인해 길이 확장에만 의존하는 접근법의 한계가 뚜렷해지며, 새로운 위치 인코딩 기제가 필요하다는 시사점을 제공한다.
핵심 기여
RoPE의 확률적 성질의 도출
RoPE 곱 S(m)를 평균 µ(M)과 분산 σ^2(M)로 근사하는 정상 분포 모델로 해석한다. 저주파 성분이 평균을 좌우하고 고주파 성분이 분산을 좌우하며, 컨텍스트 길이 M이 커질수록 µ는 감소하고 σ는 증가한다.
Position Inversion 및 Position Aliasing의 한계
연구는 컨텍스트 길이 M과 RoPE base B가 커질수록 위치 인버전 확률이 증가하여 0.5에 수렴한다는 이론적 하한을 제시한다. 또한 위치 에일리싱 확률이 1에 수렴하도록 증가하고, aliasing 쌍의 수 또한 증가한다.
Token Inversion 및 Token Aliasing의 한계
두 키 토큰의 상대적 중요도 순위가 m이 커짐에 따라 뒤바뀔 수 있으며, 토큰 에일리싱 현상으로 인해 같은 위치에서도 서로 다른 토큰의 구분이 무력해지는 경우가 생긴다. 토큰 인버전 확률의 하한도 컨텍스트 길이 증가에 따라 0.5에 수렴한다.
RoPE Base의 Trade-off 분석
RoPE base를 증가시키면 토큰 구별은 강화되지만 위치 구별은 약화되는 무작위성의 트레이드오프가 존재한다. 고정된 다층/다헤드 설정에서도 이 한계는 여전히 나타나며, 실험적으로도 다헤드 모델로 이를 완전히 극복하진 못한다는 점이 확인된다.
실험적 검증
Llama 3.1-8B를 포함한 여러 모델에서 8K~128K 컨텍스트 길이에서 위치 인버전, 위치 에일리싱, 토큰 인버전, 토큰 에일리싱이 만연함을 확인한다. 예를 들어 BF16에서 8K 컨텍스트에서 약 75,000개의 위치 에일리싱 쌍이 관찰되었다.
실제 모델에 대한 시사점
6개 공개 RoPE 기반 롱컨텍스트 모델에서 네 가지 실패 모드가 나타나며, 다헤드/다층 구조가 이를 완전히 상쇄하지 못한다는 점을 보인다. 결과적으로 길이 확장을 위한 근본적 대안이 필요하다.
핵심 아이디어 이해하기
RoPE 곱 S(m)는 질의 벡터 q와 키 벡터 k의 상대 거리 m에 따라 달라지는 회전 기반 인코딩이다. 고주파 성분은 가까운 거리의 차이를 크게 만들지만, 저주파 성분은 먼 거리 간의 비교를 안정적으로 만드는 역할을 한다. 이 논문은 RoPE product를 정규분포로 근사해 분석함으로써, 컨텍스트 길이가 길어질수록 위치 구분이 약해지고 토큰 구분 역시 불확실해짐을 보인다. 결국 위치 인버전/에일리싱, 토큰 인버전/에일리싱이 증가하고 확률이 0.5에 가까워진다는 점을 수학적으로 뒷받침한다. 또한 RoPE base를 조정해 두 목표를 서로 trade-off하는 한계가 존재함을 실험적으로 확인한다.
관련 Figure

이 그림은 RoPE product가 고주파와 저주파 구성으로 나뉘며, S(m)가 평균과 분산의 조합으로 근사될 수 있음을 시각적으로 보여준다. 핵심 아이디어인 RoPE product의 normal approximation의 시각적 근거를 제공한다.
RoPE product와 그 분포를 나타내는 전체 패턴과 S(m)의 정규 근사

저주파 성분은 decay를, 고주파 성분은 oscillation을 유발하여 x축 거리에서 RoPE 곱의 변화에 영향을 준다. 두 성분의 역할 차이가 위치 인식과 토큰 인식에서의 한계로 이어진다.
RoPE의 고주파 vs 저주파 성분의 oscillation과 decay를 비교하는 그래프

전체 RoPE 곱의 분포가 normal approximation으로 근사되는 것을 보여준다. µ와 σ의 변화가 M 증가에 따라 분포에 어떻게 반영되는지 확인할 수 있다.
RoPE product가 정규 분포(Normal)로 보이는 근사 비교
방법론
단일 어텐션 헤드의 RoPE 기반 점수를 분석한다. RoPE 곱 S(m)를 0≤m<M의 거리에서 관찰하고, 고주파 성분은 n<λ(M)로, 저주파 성분은 n≥λ(M)로 구분한다. λ(M)=Θ(h log_B M)로 정의하여 고주파의 분산과 저주파의 평균을 분리해 근사한다. S(m) ≈ N(µ_M(q,k), σ^2_M(q,k))로 근사하고, µ는 저주파의 회전에 의해 결정되며 σ는 고주파의 진동에 의해 결정된다. 이 성질을 기반으로 4가지 실패 모드를 도출하고, 이들을 수치적으로 검증한다.
주요 결과
주요 이론적 결과는 다음과 같다. (1) Position Inversion: 컨텍스트 길이 M과 RoPE base B가 커질수록 위치 인버전 확률의 낮은 경계가 증가하고, log M과 log B가 무한대로 갈 때 확률은 1/2에 수렴한다. (2) Position Aliasing: 임의의 거리 쌍이 동일한 RoPE 값에 도달하는 aliasing 확률은 M이 커질수록 지수적으로 증가하고, aliasing 쌍의 총 수 역시 증가한다. (3) Token Inversion: 토큰 간 초기 순위를 m=0에서 S1(0)>S2(0)인 경우, m>0에서 그 순위가 뒤바뀔 확률의 하한은 컨텍스트 길이 증가에 따라 1/2에 접근한다. (4) Token Aliasing: 특정 거리에서 S1(m)와 S2(m)가 동일해지는 현상으로, 토큰 구별이 약해진다. 토큰 에일리싱의 수는 M이 커짐에 따라 증가하고, B를 키우면 감소한다. 또한 8K~128K 컨텍스트에서 실제 Llama 계열 모델에서 위치/토큰 구분의 실패가 광범위하게 나타난다. 실험적으로도 다헤드/다층 아키텍처가 이 문제를 완전히 해결하지 못함을 확인했다.
관련 Figure

토큰 inversion은 m이 증가함에 따라 S1(m)과 S2(m)의 관계가 뒤바뀌는 현상을 시각적으로 보여준다. 이는 토큰 간 상대적 중요도 구분이 컨텍스트 길이에 따라 불안정해지는 것을 뒷받침한다.
토큰 inversion을 설명하는 예시 도해

대량의 aliasing 포지션이 존재함을 지역적으로 보여주는 heatmap으로, 컨텍스트 길이 증가에 따라 aliasing의 밀도가 상승하는 경향을 시각적으로 확인하게 한다.
포지션 aliasing 열지도: 대조 토큰(cat/dog)과 쿼리 pet 간의 aliasing 위치들

Attention invariance 사례를 보여주며, 키 간의 aliasing이 실제로 attention 출력을 고정시키는 상황이 존재함을 시사한다.
주의 깊은 attention invariance heatmap: aliasing과 invariance 사례

BF16에서 token aliasing 확률이 0.006에 수렴하는 것을 보이면서, 컨텍스트 길이에 따른 aliasing 확률의 실험적 경향을 뒷받침한다.
토큰 aliasing 확률의 실험적 분포와 추정값
기술 상세
전체 아키텍처 분석은 RoPE가 적용된 어텐션의 단일 헤드에 초점을 맞춘 이론적 분석이다. RoPE의 구성 요소를 고주파(high-frequency)와 저주파(low-frequency)로 구분하고 λ(M)=Θ(h log_B M)로 임계치를 정의하여, 0≤n<λ(M)은 high-frequency, n≥λ(M)은 low-frequency로 간주한다. 고주파는 거리 m에 따라 빠르게 진동하고, 저주파는 감소하는 ((decay) 효과를 일으켜 먼 거리에 대한 거리 인식에 기여한다. 이론적 기반에서 S(m)를 Exp(sum)로 취급해 CLT를 적용, Se_M ∼ N(µ_M, σ_M^2) 형태의 분포로 근사한다. µ_M(q,k)와 σ_M(q,k)는 각각 저주파와 고주파 구성에 의해 결정된다. 이후 Theorem 14를 통해 position inversion, position aliasing, token inversion, token aliasing의 확률 및 수를 도출하고, BF16 등의 수치 정밀도에서의 영향도 논의한다. 실험은 Llama 3.1-8B를 대상으로 8K128K 컨텍스트에서 수행되며, 75K의 위치 aliasing 쌍과 1,491개의 attention invariance 사례가 관찰된다. 또한 다헤드/다층 구조에서도 동일한 유형의 실패가 나타난다. RoPE scaling에 따라 토큰 구별은 개선되지만 위치 구별은 감소하는 상충 관계를 보이고, 결국 긴 컨텍스트에 대한 근본적 한계가 남는다.
한계점
Limitations 항목에 명시된 한계점을 반영한다. 베이스 임계치 λ(M)과 근사 방법은 이론적 근거의 근사치에 불과하며, 비정규적 RoPE 진폭 분포가 존재할 경우 분포의 정확성에 영향을 준다. 또한 실제 모델의 다층/다헤드 상황에서의 상호작용은 본 논문의 단일 헤드 분석으로만 완전히 설명되기 어렵고, 다양한 RoPE 변형( NTK 스케일링 등)의 일반화에는 추가 연구가 필요하다.
실무 활용
RoPE의 기본 한계로 인해 긴 컨텍스트에서 위치와 토큰 구분이 점차 어렵게 된다. 따라서 롱컨텍스트를 다루는 실제 시스템은 RoPE 의존성을 벗어나거나, 더 근본적인 위치 인코딩 메커니즘을 탐구해야 한다.
- 롱컨텍스트 기반 추론에서 RoPE 사용의 한계 평가 및 대안 탐색
- RAG/Retrieval-augmented 시스템에서 위치/토큰 구분의 견고성 평가 및 개선
- 롱컨텍스트 모델 설계 시 RoPE base 조정의 효과에 대한 실험적 가이드 제공
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.