임커밋AI/ML조회 3회

트랜스포머 Positional Encoding 수식의 비밀: 왜 사인과 코사인을 섞어 쓸까?

트랜스포머 모델이 단어의 순서를 파악하기 위해 사용하는 Sinusoidal Positional Encoding의 수학적 원리와 상대적 위치 학습을 위한 설계 의도를 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Attention 메커니즘의 순열 불변성을 해결하기 위해 도입된 Positional Encoding은 외삽 능력과 상대적 위치 학습을 위해 정교한 삼각함수 주기를 활용한다.

배경

트랜스포머 아키텍처의 핵심 구성 요소 중 하나인 Positional Encoding은 단어의 위치 정보를 모델에 주입하는 역할을 한다.

대상 독자

트랜스포머의 내부 작동 원리를 깊이 있게 이해하고자 하는 AI 개발자 및 연구자

의미 / 영향

이 영상은 트랜스포머의 수식이 단순한 나열이 아니라 Attention의 수학적 특성을 고려한 정교한 설계임을 확인시켜 준다. 최근 널리 쓰이는 RoPE(Rotary Positional Encoding) 등의 발전된 기법을 이해하기 위한 필수적인 기초 지식을 제공한다.

챕터별 상세

00:22

Attention의 순열 불변성과 위치 정보의 필요성

Attention 메커니즘은 입력 데이터의 순서가 바뀌어도 결과값이 동일한 순열 불변성(Permutation Invariance) 특성을 가진다. '어떻게 고양이를 좋아하는 나를 버려'와 '나를 좋아하는 고양이를 어떻게 버려'라는 문장은 단어 구성이 같아 Attention만으로는 의미 차이를 구분할 수 없다. 이를 해결하기 위해 각 단어 벡터에 고유한 위치 정보를 담은 벡터를 더해주는 Positional Encoding이 필수적이다.

•Attention은 내부적으로 쿼리-키 내적과 밸류의 가중치 합을 사용하므로 순서 정보가 소실됨
•단어의 위치에 따라 서로 다른 벡터를 더해줌으로써 모델이 순서를 인식하게 함

순열 불변성이란 입력 요소의 순서를 뒤섞어도 함수의 출력값이 변하지 않는 성질을 의미한다.

01:58

학습 가능한 포지셔널 인코딩의 한계

각 위치(0번째, 1번째 등)마다 고유한 벡터를 학습시키는 Learnable Positional Encoding 방식은 구현이 간단하다. 하지만 이 방식은 학습 데이터에서 본 최대 문장 길이보다 긴 문장이 들어올 경우 대응할 수 없는 외삽(Extrapolation) 문제가 발생한다. 예를 들어 512토큰까지 학습했다면 513번째 토큰의 위치 벡터는 정의되어 있지 않아 모델이 처리하지 못한다.

•Learnable 방식은 학습 시 정해진 최대 길이 내에서만 작동함
•학습 범위를 벗어난 긴 시퀀스에 대한 확장성이 부족함

03:02

Sinusoidal Positional Encoding의 작동 원리와 시계 비유

Sinusoidal 방식은 위치를 학습하는 대신 특정 함수 규칙에 따라 위치 벡터를 생성한다. 서로 다른 주기를 가진 사인과 코사인 함수를 차원마다 배치하여 각 위치마다 고유한 패턴을 부여한다. 이는 시침, 분침, 초침이 각기 다른 속도로 돌며 12시간 내의 모든 시각을 고유하게 나타내는 시계의 원리와 유사하다. 낮은 차원은 빠르게 진동하고 높은 차원은 느리게 진동하여 전체 차원을 합쳤을 때 고유한 위치 정보를 형성한다.

•함수 규칙을 사용하므로 학습 때 보지 못한 긴 문장도 이론적으로 처리가 가능함
•차원 인덱스에 따라 주기를 다르게 설정하여 위치별 고유성을 확보함

Sinusoidal은 '사인파 모양의'라는 뜻으로, 주기적인 파동 형태를 의미한다.

05:20

사인과 코사인을 교차 사용하는 수학적 이유

논문에서 사인과 코사인을 번갈아 사용하는 이유는 두 위치 벡터의 내적이 상대적 거리(k)에만 의존하도록 설계하기 위함이다. 삼각함수의 덧셈 정리인 cos(A-B) 공식을 활용하면, 위치 pos와 pos+k의 내적 결과가 절대적 위치가 아닌 차이값 k에 대한 함수로 표현된다. 이를 통해 모델은 단어 사이의 상대적인 거리를 더 쉽게 학습하고 활용할 수 있게 된다.

•상대적 거리가 같으면 내적값이 일정하게 유지되는 성질을 이용함
•Attention 연산이 내적 기반이므로 위치 정보 역시 내적에 최적화된 형태로 설계됨

삼각함수의 덧셈 정리는 cos(A-B) = cos A cos B + sin A sin B 임을 이용하여 내적 연산을 단순화한다.

실무 Takeaway

Attention은 순열 불변하므로 위치 정보를 명시적으로 주입해야 문맥 파악이 가능하다.
Sinusoidal Positional Encoding은 함수 기반 규칙을 사용하여 학습 범위를 넘어서는 문장 길이에 대한 외삽 능력을 제공한다.
사인과 코사인을 교차 배치하는 설계는 삼각함수 덧셈 정리를 통해 두 토큰 사이의 상대적 거리를 내적 연산에 반영하기 위함이다.

언급된 리소스

GitHubmanim-kor GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 02.수집 2026. 04. 02.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.