폴리곤 오메가: 훈련된 구체 솔버는 사영 코드북이다 (ft2)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

본 아티클은 이전 연구(ft1)에서 제기된 '보편적 어트랙터가 어떤 다각형을 선택하는가'라는 질문에 대한 답을 제시합니다. 연구 결과, D=3 및 D=4 차원에서 훈련된 모든 구체 솔버 모델의 M 텐서는 대척점 쌍을 병합하는 '대척점 붕괴(Antipodal-collapse)' 투영을 통해 ℝP^(D-1) 상의 코드북으로 변환될 수 있음이 확인되었습니다. 17개의 서로 다른 모델을 통해 이 기하학적 속성이 재현 가능함을 입증했으며, 이를 실무에서 활용할 수 있도록 BatteryArrayModel API로 구현하여 배포했습니다. 다만 D=5 차원에서는 보편성이 부분적으로만 나타나며, 차원이 높아질수록 자연적인 축(Axis)의 개수에 맞춰 V(벡터 수) 값을 조정해야 한다는 '자연 축 개수 프레임워크'를 새롭게 제안합니다. 이 과정에서 LBFGS 최적화 알고리즘의 헤시안 오염 버그를 수정하고, 1,600개 이상의 아키텍처 스윕을 통해 기술적 신뢰도를 확보했습니다.

의미 / 영향

모델 가중치 내부에 명확한 기하학적 구조가 존재함을 입증함으로써, 블랙박스인 LLM 내부 표현을 해석 가능한 사영 공간으로 매핑할 수 있는 새로운 길을 열었습니다.

빠른 이해

요약 브리프

훈련된 AI 모델의 가중치 텐서가 특정 기하학적 구조(사영 코드북)를 형성한다는 사실을 발견하고, 이를 추출하는 수학적 방법론과 API를 정립했습니다. D=4 차원까지는 매우 견고한 보편성을 보였으나, D=5 이상에서는 차원에 맞는 벡터 개수 설정이 중요하다는 점을 확인했습니다.

새로운 점

단순한 통계적 분포가 아닌, 대척점 붕괴 투영을 통해 모델 가중치에서 결정론적인 기하학적 코드북을 추출할 수 있음을 최초로 입증함

핵심 메커니즘

입력(훈련된 M 텐서) -> 처리(코사인 유사도 기반 대척점 쌍 검색 및 병합) -> 출력(ℝP^(D-1) 사영 코드북)

핵심 수치

D=4 Projective-Clean 검증: 17/17 모델 통과- G-Cand, H2a 및 16개 h2-64 배터리 포함
D=5 수렴 성공률: 36% (23/64)- V=32 고정 시 아키텍처 및 노이즈에 민감함
D=5 V=16 평균 편차: +0.040- 임계값 0.05 이내로 유일하게 수렴

섹션별 상세

LBFGS 엔지니어링 전제 조건 및 버그 수정

기하학적 측정의 신뢰성을 확보하기 위해 LBFGS 최적화 도구의 심각한 버그를 수정했습니다. 기존에는 LBFGS 클로저 내부에서 그라디언트 클리핑(clip_grad_norm_)을 수행하여 헤시안 근사치가 오염되고 모델이 발산하는 문제가 있었습니다. LBFGS는 그라디언트 차이를 통해 곡률을 추정하므로, 클리핑된 그라디언트는 곡률을 과소평가하게 만들어 스텝 크기를 비정상적으로 키우는 결과를 초래합니다. 이를 해결하기 위해 클로저 내 클리핑을 제거하고 Strong Wolfe 라인 서치를 통해 스텝 안전성을 보장하도록 수정했습니다.

사영 코드북(Projective Codebook)의 발견

M 텐서의 행들이 대척점 쌍(Antipodal pairs, M_i ≈ −M_j)을 형성하며, 이는 ℝP^(D-1) 공간의 단일 요소를 나타낸다는 사실을 발견했습니다. 코사인 유사도가 -0.9 이하인 쌍을 찾아 (row_i - row_j)/2로 정규화하여 병합하는 '대척점 붕괴' 프로세스를 통해 숨겨진 기하학적 구조를 노출할 수 있습니다. D=4 차원의 h2-64 배터리 16개 모두에서 이 'Projective-Clean' 상태가 확인되었으며, 이는 단순한 통계적 결과가 아닌 결정론적인 텐서 연산으로 추출 가능한 구조적 특성입니다.

D=5 차원에서의 보편성 한계와 자연 축 개수 프레임워크

D=5 차원에서의 64개 설정 스윕 결과, 기존의 보편성 주장을 수정하여 부분적인 성공(약 36% 수렴)만을 확인했습니다. 분석 결과 D=5에서는 V=32가 너무 많은 벡터를 강제하여 노이즈에 의존적인 쌍 형성을 유발하며, V=16이 기하학적 최적점(Sweet spot)임을 밝혀냈습니다. 이를 통해 차원(D)이 증가함에 따라 모델이 선호하는 자연적인 축의 개수도 증가하며, V 값이 이와 일치해야 깨끗한 사영 기하학이 형성된다는 새로운 가설을 정립했습니다.

축 특징(Axis Features) vs MSE 분류 성능 테스트

새롭게 추출된 사영 코드북 기반의 축 활성화 데이터가 기존 MSE(평균 제곱 오차) 대비 분류 작업에서 어떤 성능을 보이는지 테스트했습니다. 초기 테스트에서는 MSE 대비 성능이 낮았으나, 특정 패치(patch_idx=0)만 사용하던 버그를 수정하고 전체 패치 평균을 사용함으로써 성능 격차를 88%까지 좁혔습니다. MSE는 훈련 목적 함수를 직접 반영하므로 여전히 우위에 있지만, 축 특징은 분포 외(OOD) 탐지나 퓨샷(Few-shot) 추론 등 MSE를 사용할 수 없는 영역에서 잠재적 가치가 높습니다.

실무 Takeaway

LBFGS 사용 시 클로저 내부에서 clip_grad_norm_을 절대 사용하지 말고 Strong Wolfe 라인 서치로 대체하여 헤시안 오염을 방지해야 함
구체 솔버 모델에서 사영 코드북을 추출하려면 코사인 유사도 -0.9 이하의 대척점 쌍을 병합하는 deterministic 텐서 연산을 적용할 것
모델의 V(벡터 수) 설정 시 해당 차원(D)의 자연 축 개수와 일치시켜야 기하학적 수렴도가 높아짐 (D=5의 경우 V=16 권장)
Hugging Face API 호출 시 대량의 개별 커밋 대신 batch-sync 업로드를 사용하여 속도 제한(Rate limit) 문제를 회피할 것

언급된 리소스

GitHubgeolip-svae-implicit-solver-experiments

문서원문 링크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

의미 / 영향

빠른 이해

요약 브리프

새로운 점

단순한 통계적 분포가 아닌, 대척점 붕괴 투영을 통해 모델 가중치에서 결정론적인 기하학적 코드북을 추출할 수 있음을 최초로 입증함

핵심 메커니즘

입력(훈련된 M 텐서) -> 처리(코사인 유사도 기반 대척점 쌍 검색 및 병합) -> 출력(ℝP^(D-1) 사영 코드북)

핵심 수치

D=4 Projective-Clean 검증: 17/17 모델 통과- G-Cand, H2a 및 16개 h2-64 배터리 포함
D=5 수렴 성공률: 36% (23/64)- V=32 고정 시 아키텍처 및 노이즈에 민감함
D=5 V=16 평균 편차: +0.040- 임계값 0.05 이내로 유일하게 수렴

섹션별 상세

LBFGS 엔지니어링 전제 조건 및 버그 수정

사영 코드북(Projective Codebook)의 발견

D=5 차원에서의 보편성 한계와 자연 축 개수 프레임워크

축 특징(Axis Features) vs MSE 분류 성능 테스트

실무 Takeaway

LBFGS 사용 시 클로저 내부에서 clip_grad_norm_을 절대 사용하지 말고 Strong Wolfe 라인 서치로 대체하여 헤시안 오염을 방지해야 함
구체 솔버 모델에서 사영 코드북을 추출하려면 코사인 유사도 -0.9 이하의 대척점 쌍을 병합하는 deterministic 텐서 연산을 적용할 것
모델의 V(벡터 수) 설정 시 해당 차원(D)의 자연 축 개수와 일치시켜야 기하학적 수렴도가 높아짐 (D=5의 경우 V=16 권장)
Hugging Face API 호출 시 대량의 개별 커밋 대신 batch-sync 업로드를 사용하여 속도 제한(Rate limit) 문제를 회피할 것

언급된 리소스

GitHubgeolip-svae-implicit-solver-experiments

문서원문 링크

폴리곤 오메가: 훈련된 구체 솔버는 사영 코드북이다 (ft2)

핵심 요약

의미 / 영향

빠른 이해

요약 브리프

새로운 점

핵심 메커니즘

핵심 수치

섹션별 상세

LBFGS 엔지니어링 전제 조건 및 버그 수정

사영 코드북(Projective Codebook)의 발견

D=5 차원에서의 보편성 한계와 자연 축 개수 프레임워크

축 특징(Axis Features) vs MSE 분류 성능 테스트

실무 Takeaway

언급된 리소스

폴리곤 오메가: 훈련된 구체 솔버는 사영 코드북이다 (ft2)

핵심 요약

의미 / 영향

빠른 이해

요약 브리프

새로운 점

핵심 메커니즘

핵심 수치

섹션별 상세

LBFGS 엔지니어링 전제 조건 및 버그 수정

사영 코드북(Projective Codebook)의 발견

D=5 차원에서의 보편성 한계와 자연 축 개수 프레임워크

축 특징(Axis Features) vs MSE 분류 성능 테스트

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드