추론과 진실성 사이의 상관관계: 모델 스케일링과 정렬 세금에 관한 연구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

3.5B 파라미터 미만 모델에서 나타나는 추론과 진실성의 역상관관계(Alignment Tax)를 분석하고, 이를 해결하기 위한 스케일링 법칙과 모델 스티어링 기법을 제시한다.

모델 규모에 따른 추론 능력과 진실성 간의 상관관계를 분석하고, 정렬 세금(Alignment Tax)을 해결하기 위한 스케일링 법칙과 모델 스티어링 기법을 커뮤니티에 공유했다.

3.5B 파라미터 미만의 소형 모델에서 추론 능력과 진실성은 강한 역상관관계(r = -0.989)를 보인다. 이는 모델을 학습시켜 추론을 개선할수록 진실성이 떨어지는 정렬 세금 현상이다. 데이터 품질, 모델 너비, 아키텍처 조정을 통해 이 임계점을 낮출 수 있다.

모델 내부의 병목 계층(bottleneck layer)에 진실성 방향 벡터(truth-direction vector)를 추가하여 정렬되지 않은 출력을 60% 교정했다. 이는 가중치 수정이나 재학습 없이 오픈 웨이트 모델에 즉시 적용 가능하다.

프런티어 모델 규모에서는 추론과 진실성이 양의 상관관계(r = +0.72)로 전환된다. 구글, 오픈AI, 딥시크, 앤스로픽 등 연구소별로 학습 철학에 따라 협력적 경향성(h-field)이 다르게 나타난다.

Alignment Tax: — 모델의 정렬(alignment)을 강화하는 과정에서 모델의 원래 성능이나 진실성이 저하되는 현상. 본문에서는 소형 모델에서 추론 능력을 높일수록 진실성이 떨어지는 역상관관계로 나타남.
Bottleneck Layer: — 모델 내부에서 정보가 압축되어 전달되는 특정 계층. 본문에서는 이 계층의 차원 압축이 진실성 저하의 원인이며, 여기에 벡터를 추가하여 출력을 교정함.
Scaling Law: — 모델의 파라미터 수, 데이터 양, 컴퓨팅 자원과 모델 성능 간의 수학적 관계. 본문에서는 추론과 진실성 간의 상관관계가 모델 규모에 따라 어떻게 변화하는지 정의함.

bash

python cli/cape_steer.py --model EleutherAI/pythia-410m --prompt "The real reason..."

모델의 정렬되지 않은 출력을 수정하기 위해 진실성 방향 벡터를 적용하는 CLI 도구 실행 예시.