대규모 언어 모델 내 범주형 및 계층적 개념의 기하학적 구조 | AI Trends

서울대학교 DSBA 연구실Research

대규모 언어 모델 내 범주형 및 계층적 개념의 기하학적 구조

LLM 내부의 개념 표현 방식을 선형 방향에서 벡터로 확장하고, 범주와 계층 구조가 각각 다면체와 직교성이라는 기하학적 형태로 인코딩됨을 수학적으로 증명했다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 선형 표현 가설을 넘어, 개념들이 벡터 크기를 갖는 다면체 구조를 형성하며 계층 간에는 서로 직교하는 방식으로 정보를 저장함을 수학적 증명과 실험으로 입증했다.

배경

LLM이 언어를 단순히 암기하는 것인지 아니면 개념의 구조를 이해하는 것인지에 대한 해석 가능성(Interpretability) 연구가 활발히 진행 중이다.

대상 독자

AI 모델의 내부 작동 원리 및 표현 학습 연구에 관심 있는 연구자 및 대학원생

의미 / 영향

이 연구는 LLM이 지식을 단순히 나열하는 것이 아니라 수학적으로 정교한 기하학적 구조로 저장하고 있음을 입증했다. 이를 통해 특정 개념 벡터를 정밀하게 조작하는 스티어링 기법의 신뢰도를 높일 수 있으며, 모델의 안전성과 정렬 문제를 해결하는 데 있어 강력한 이론적 도구를 제공한다.

챕터별 상세

00:00

서론: LLM 해석 가능성과 기존 가설의 한계

LLM이 언어를 이해하는 방식을 규명하기 위해 기존에는 의미적 개념이 선형적인 방향으로 표현된다는 선형 표현 가설(LRH)이 주로 연구됐다. 하지만 기존 연구는 성별(Male-Female)과 같은 이진 대조 개념에만 국한되어 범주형이나 계층적 구조를 설명하지 못하는 한계가 있었다. 본 논문은 이러한 한계를 극복하기 위해 개념의 표현을 단순한 '방향'에서 '벡터'로 확장하고 복잡한 개념 구조의 기하학적 형태를 밝히고자 한다. 이를 통해 모델 내부의 개념 인코딩 방식을 더 정밀하게 이해하고 제어할 수 있는 기반을 마련했다.

Word2Vec에서 'King - Man + Woman = Queen'과 같은 연산이 가능한 이유가 바로 선형 표현 가설 덕분이다.

02:57

연구 질문 및 핵심 기여점

연구팀은 단일 특성을 벡터로 표현할 수 있는지, 범주 개념과 계층 구조가 어떤 기하학적 구조로 인코딩되는지에 대한 세 가지 연구 질문을 던졌다. 이에 대한 해답으로 바이너리 피처의 표현을 방향에서 벡터로 확장하고, 범주 개념을 폴리토프(Polytope) 형태로 정의했다. 또한 계층적 관계가 직교(Orthogonal)하게 인코딩된다는 사실을 이론적으로 증명하고 실험적으로 검증했다. 이러한 기여는 LLM 내부의 지식 저장 방식을 수학적으로 체계화했다는 점에서 큰 의미를 갖는다.

04:41

사전 지식: LLM의 두 공간과 통합 과정

LLM은 입력 문맥의 의미를 압축하는 컨텍스트 임베딩 공간과 각 토큰의 정체성을 결정하는 언임베딩(Unembedding) 공간으로 나뉜다. 두 공간은 서로 다른 차원과 특성을 가지므로 직접적인 내적 연산이 불가능하다는 문제가 있었다. 이를 해결하기 위해 가역 행렬 A와 화이트닝(Whitening) 기법을 도입하여 두 공간을 하나의 공통 공간으로 통합하는 인과적 내적(Causal Inner Product) 과정을 거쳤다. 이 과정을 통해 모델의 동작을 유지하면서도 수학적으로 분석하기 용이한 공간을 확보했다.

화이트닝은 데이터의 상관관계를 제거하여 모든 방향으로 정보가 균일하게 퍼지도록 만드는 과정이다.

05:55

개념의 정의와 계층적 종속 관계

논문에서는 개념을 문맥에 의해 야기되고 출력에 영향을 주는 잠재 변수 W로 정의했다. 개념들 사이의 관계는 인과적 분리 가능성과 계층적 종속 관계로 구분된다. 예를 들어 성별과 언어는 서로 독립적으로 조작 가능하므로 인과적으로 분리된 관계이며, '개(Dog)'는 '포유류(Mammal)'에 속하므로 계층적 종속 관계에 해당한다. 이러한 정의는 계층 구조 내에서 상위 개념을 조작했을 때 하위 개념들의 상대적 확률이 변하지 않아야 한다는 엄격한 선형 표현 조건을 도출하는 근거가 됐다.

09:21

이론: 개념의 기하학적 구조 (Theorem 4 & 8)

Theorem 4를 통해 속성 W에 대한 선형 벡터가 존재하면 특정 상수가 존재하여 같은 분류 내 토큰들이 동일한 투영 값을 가짐을 증명했다. 예를 들어 '개'와 '고양이'는 '동물인가'라는 벡터에 투영했을 때 같은 값을 가져야 한다. 범주형 개념은 이러한 원소 벡터들을 꼭짓점으로 하는 폴리토프 구조로 나타난다. 또한 Theorem 8은 계층 구조에서 상위 개념 벡터와 하위 개념 간의 차이 벡터가 서로 직교해야 함을 보여준다. 이는 상위 개념을 조작해도 하위 개념들 사이의 상대적 확률 분포가 유지되어야 한다는 논리적 귀결이다.

폴리토프는 다차원 공간에서의 다면체를 의미하며, 여기서는 개념들의 집합적 구조를 뜻한다.

13:36

실험 설정 및 데이터셋

이론 검증을 위해 Gemma-2B와 Llama-3-8B 모델을 사용했으며, 단어 간의 계층 구조가 잘 정리된 WordNet 데이터셋을 활용했다. WordNet에서 593개의 명사 집합과 364개의 동사 집합을 추출하여 계층 구조를 형성했다. 각 개념 집합을 학습용(70%)과 테스트용(30%)으로 나누어 선형 판별 분석(LDA)을 통해 개념 벡터를 추정했다. 이를 통해 실제 모델 내부 공간에서 이론적으로 예측한 기하학적 구조가 나타나는지 확인하는 실험 설계를 마쳤다.

WordNet은 유의어 집합(Synset)과 상하위 관계를 제공하는 대표적인 어휘 데이터베이스이다.

14:21

실험 결과: 벡터 표현의 존재와 인과적 조작

추정된 개념 벡터에 테스트 단어들을 투영한 결과, 해당 개념에 속하는 단어들은 1에 가까운 값을, 속하지 않는 단어들은 0에 가까운 값을 나타냈다. 이는 LLM 내부에 실제 개념 벡터가 존재함을 의미한다. 또한 인터벤션(Intervention) 실험을 통해 부모 개념 벡터를 컨텍스트에 더했을 때, 목표한 부모 개념의 로짓(Logit)은 크게 변했지만 하위 개념들 사이의 상대적 로짓 차이는 거의 변하지 않았다. 이는 모델이 계층 구조를 유지하면서도 특정 레벨의 정보만 독립적으로 처리할 수 있음을 입증한 결과이다.

로짓(Logit)은 모델이 특정 토큰을 출력할 확률을 나타내는 수치이다.

17:37

계층적 직교성 검증

WordNet 상에서 가까운 개념들일수록 LLM 내부의 표현 벡터 간 코사인 유사도가 높게 나타나는 패턴을 확인했다. 특히 계층 구조에서 부모 벡터와 자식-부모 차이 벡터 간의 내적 값을 측정했을 때, 대부분의 개념 쌍에서 0에 매우 가까운 값이 산출됐다. 이는 Theorem 8에서 예측한 계층적 직교성이 실제 모델 내부에서 성립함을 보여준다. 반면 임베딩을 무작위로 섞었을 때는 이러한 직교성이 깨졌으며, 이를 통해 발견된 구조가 우연이 아닌 학습된 의미 구조임을 확증했다.

코사인 유사도가 0이라는 것은 두 벡터가 90도 직각을 이루며 서로 독립적임을 의미한다.

20:11

결론 및 향후 연구 방향

본 연구는 LLM 내부의 개념 인코딩 방식을 방향에서 벡터로 확장하고, 범주와 계층이라는 복잡한 구조를 폴리토프와 직교성이라는 기하학적 언어로 규명했다. LLM이 실제 개념에 대해 정교한 구조적 특징을 가지고 학습된다는 점을 밝혀낸 것이 가장 큰 성과이다. 이러한 발견은 향후 LLM의 입출력 인과 관계 분석, 모델의 안전성 확보를 위한 정밀한 스티어링 기법 개발, 그리고 모델 정렬 연구에 중요한 토대가 될 것으로 기대된다.

실무 Takeaway

LLM 내부의 개념은 단순한 방향이 아니라 크기를 가진 벡터로 표현되며, 동일 범주 내 토큰들은 특정 속성 벡터에 대해 일관된 투영 값을 갖는다.
범주형 개념은 각 원소 벡터들을 꼭짓점으로 하는 볼록 다면체(Polytope) 형태의 기하학적 구조를 형성하여 정보를 저장한다.
계층 구조에서 상위 개념과 하위 개념 간의 정보는 서로 직교(Orthogonal)하게 인코딩되어, 상위 개념을 조작해도 하위 개념 간의 상대적 관계가 훼손되지 않는다.
화이트닝 기법을 통해 컨텍스트 공간과 언임베딩 공간을 통합함으로써 모델 내부의 인과적 내적 연산과 기하학적 분석이 가능해진다.

언급된 리소스

논문The Geometry of Categorical and Hierarchical Concepts in Large Language Models

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 01.수집 2026. 04. 01.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.