LIMEN 연구: Transformer 은닉 상태 궤적에서 맥락 의존성 및 보편적 동적 문법 발견

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

독립 연구 프로젝트 LIMEN은 Transformer의 은닉 상태를 층별로 추적하고 선형 프로브와 기호화된 상태 시퀀스 분석을 결합하여 문맥 모호성과 내부 동적 구조를 조사했다. 실험 패널로 GPT-2부터 Llama-3.2-1B, Phi-1.5 등을 포함한 7개 오픈소스 모델을 사용했고 모호성은 궤적의 기하를 변형시키지만 전역적 불안정성을 증가시키지 않으며 일부 최신 모델은 결정 관여를 지연시키는 경향을 보였다. 연속적 분석을 기호적 전이로 변환한 결과 일곱 가지 보편 전이 모티프가 관찰되었고 전형적 깔때기 구조(B→A→D)에서 상태 A의 자기유지 확률이 약 0.91로 보고되어 내부 동역학이 제약된 문법을 따른다는 결론이 도출되었다. 이러한 발견은 문법 위반을 환각 탐지 신호로 활용하거나 레짐 점유를 기반으로 동적 제어를 설계하는 가능성을 열지만, 더 큰 규모(예: >70B)와 다른 아키텍처에서의 보편성 검증과 기법의 재현성 확보가 남은 과제로 제시된다.

섹션별 상세

연구의 방법론은 층별로 은닉 상태 궤적을 추적하고 선형 프로브로 기능적 정보를 복원한 뒤 상태 시퀀스를 기호화하여 동적 레짐을 분류하는 절차로 구성되어 있다. 구체적으로 입력 문장을 각 층의 은닉 벡터 시계열로 변환한 뒤 궤적의 기하(곡률, 코사인 유사도)와 레짐 점유율을 측정하고, 그 결과를 바탕으로 연속적 분석과 상징적 기호화 분석을 병행했다. 사용한 모델 패널은 GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B, TinyLlama-1.1B, Phi-1.5, Llama-3.2-1B로 다양한 크기와 설계의 오픈소스 모델을 포함하여 아키텍처 간 일반화를 평가했다.

V23 실험에서는 의미적 모호성이 은닉 상태 궤적의 기하를 유의미하게 변화시켰지만 전역적 혼돈성(chaos)을 증가시키지 않는 것으로 나타났다. 측정 항목으로는 궤적의 곡률과 층별 코사인 유사도, 레짐 점유 시간 분포가 사용되었고, 결과는 AMBIGUITY_AFFECTS_TRAJECTORY=YES와 AMBIGUITY_INCREASES_INSTABILITY=NO로 요약되었다. 일부 최신 모델(Phi-1.5, Llama-3.2)은 불확실성 상황에서 결심(결정)로의 관여를 지연시키고 탐색 레짐에서 더 오랜 시간 머무르는 경향을 보였으며 이는 모호성이 내부 탐색-수렴 타이밍을 재구성함을 시사한다.

V24 분석에서는 연속적 궤적을 기호화하여 상태 전이 시퀀스를 조사한 결과 일곱 가지 전이 모티프가 아키텍처 전반에 보존된다는 결론이 도출되었다. 대표적인 전이 패턴은 초기 탐색(B)에서 안정화/처리(A), 최종 결정(D)으로 이어지는 깔때기 구조이며 상태 A의 자기유지 확률 P(A→A)가 약 0.91로 보고되었다. 이 같은 보편적 전이 규칙은 궤적이 무작위적이 아니라 제약된 전이 그래머를 따르며, 따라서 레짐 점유와 전이 패턴을 통해 모델의 처리 단계와 잠재적 오류 지점을 모니터링할 수 있음을 의미한다.

Phi-1.5는 다른 모델들과 달리 분기 레짐 점유율이 증가하고 층 깊이에 걸쳐 B와 A 사이의 진동을 지속하는 예외적 행동을 보였으며 이는 반복적 추론이나 단계적 검사에 해당하는 처리 메커니즘을 반영할 가능성이 있다. 연구자는 이러한 레짐 점유의 차이를 통해 단순한 통계적 완성기와는 다른 추론적 특성을 지닌 모델을 구별할 수 있다고 제안했다. 이 관찰은 B→A→D 문법을 위반하는 직접적 B→D 점프가 환각(hallucination) 또는 추론 오류의 조기 신호가 될 수 있다는 실용적 검출·제어 접근으로 이어진다.

LIMEN 연구: Transformer 은닉 상태 궤적에서 맥락 의존성 및 보편적 동적 문법 발견

TL;DR

섹션별 상세

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드