핵심 요약
Attention 메커니즘의 순열 불변성을 해결하기 위해 도입된 Positional Encoding은 외삽 능력과 상대적 위치 학습을 위해 정교한 삼각함수 주기를 활용한다.
배경
트랜스포머 아키텍처의 핵심 구성 요소 중 하나인 Positional Encoding은 단어의 위치 정보를 모델에 주입하는 역할을 한다.
대상 독자
트랜스포머의 내부 작동 원리를 깊이 있게 이해하고자 하는 AI 개발자 및 연구자
의미 / 영향
이 영상은 트랜스포머의 수식이 단순한 나열이 아니라 Attention의 수학적 특성을 고려한 정교한 설계임을 확인시켜 준다. 최근 널리 쓰이는 RoPE(Rotary Positional Encoding) 등의 발전된 기법을 이해하기 위한 필수적인 기초 지식을 제공한다.
챕터별 상세
Attention의 순열 불변성과 위치 정보의 필요성
- •Attention은 내부적으로 쿼리-키 내적과 밸류의 가중치 합을 사용하므로 순서 정보가 소실됨
- •단어의 위치에 따라 서로 다른 벡터를 더해줌으로써 모델이 순서를 인식하게 함
순열 불변성이란 입력 요소의 순서를 뒤섞어도 함수의 출력값이 변하지 않는 성질을 의미한다.
학습 가능한 포지셔널 인코딩의 한계
- •Learnable 방식은 학습 시 정해진 최대 길이 내에서만 작동함
- •학습 범위를 벗어난 긴 시퀀스에 대한 확장성이 부족함
Sinusoidal Positional Encoding의 작동 원리와 시계 비유
- •함수 규칙을 사용하므로 학습 때 보지 못한 긴 문장도 이론적으로 처리가 가능함
- •차원 인덱스에 따라 주기를 다르게 설정하여 위치별 고유성을 확보함
Sinusoidal은 '사인파 모양의'라는 뜻으로, 주기적인 파동 형태를 의미한다.
사인과 코사인을 교차 사용하는 수학적 이유
- •상대적 거리가 같으면 내적값이 일정하게 유지되는 성질을 이용함
- •Attention 연산이 내적 기반이므로 위치 정보 역시 내적에 최적화된 형태로 설계됨
삼각함수의 덧셈 정리는 cos(A-B) = cos A cos B + sin A sin B 임을 이용하여 내적 연산을 단순화한다.
실무 Takeaway
- Attention은 순열 불변하므로 위치 정보를 명시적으로 주입해야 문맥 파악이 가능하다.
- Sinusoidal Positional Encoding은 함수 기반 규칙을 사용하여 학습 범위를 넘어서는 문장 길이에 대한 외삽 능력을 제공한다.
- 사인과 코사인을 교차 배치하는 설계는 삼각함수 덧셈 정리를 통해 두 토큰 사이의 상대적 거리를 내적 연산에 반영하기 위함이다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.