Kiji Inspector: Sparse Autoencoder를 활용한 AI 에이전트 의사결정 해석 기술

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 에이전트의 도구 선택 과정은 내부 계산 메커니즘이 불투명하여 신뢰성 확보에 어려움이 있다. Dataiku의 575 Lab은 Sparse Autoencoder(SAE)를 활용해 모델 내부의 활성화를 분석하고 설명하는 오픈소스 도구인 Kiji Inspector를 개발했다. 이 도구는 모델이 결정을 내리는 순간의 '결정 토큰' 활성화를 추출하여 인간이 이해할 수 있는 특징으로 분해함으로써 의사결정의 근거를 명확히 제시한다. 이를 통해 사후적인 텍스트 설명에 의존하는 기존 방식의 한계를 극복하고 프로덕션 환경에서의 AI 에이전트 투명성을 높인다.

배경

LLM 내부 구조 및 활성화(Activation) 개념, Transformer 아키텍처에 대한 이해, Sparse Autoencoder(SAE)의 기본 원리

대상 독자

프로덕션 환경에서 AI 에이전트를 구축하고 의사결정 투명성을 확보하려는 ML 엔지니어 및 연구자

의미 / 영향

이 기술은 AI 에이전트의 '블랙박스' 문제를 해결하여 금융, 의료 등 고위험 산업군에서 에이전트 도입을 가속화할 것이다. 특히 모델의 내부 활성화를 직접 검증함으로써 AI의 기만적 행동을 사전에 탐지하고 제어할 수 있는 실질적인 도구를 제공한다.

섹션별 상세

Kiji Inspector는 AI 에이전트의 도구 선택 과정을 기계론적 해석 가능성(Mechanistic Interpretability) 기법으로 분석하는 오픈소스 툴킷이다. 기존의 Chain-of-Thought 방식이 모델의 사후적인 설명에 의존하여 기만적인 답변을 내놓을 수 있는 것과 달리, 이 도구는 모델 내부의 신경망 활성화를 직접 조사하여 실제 의사결정 메커니즘을 밝혀낸다.

분석 프로세스는 대조적 쌍 생성, 활성화 추출, SAE 학습, 대조 분석, 특징 해석, 퍼징 평가의 6단계 파이프라인으로 구성된다. 특히 모델이 도구 선택을 확정하는 정확한 시점인 '결정 토큰(Decision Token)' 위치의 활성화를 캡처함으로써 분석의 정밀도를 높이고 불필요한 노이즈를 제거한다.

JumpReLU Sparse Autoencoder(SAE)를 활용하여 모델의 복잡한 활성화 상태를 인간이 이해할 수 있는 단일 의미 특징(Monosemantic Features)으로 분해한다. SAE는 비지도 학습 방식으로 모델의 자연스러운 표현 어휘를 발견하며, 이후 대조 분석을 통해 특정 도구 선택과 상관관계가 높은 특징들을 통계적으로 식별한다.

NVIDIA Nemotron-3 및 Google Gemma 3 모델을 위한 사전 학습된 SAE를 지원하며, 사용자가 자신의 모델과 도구 환경에 맞춰 커스텀 SAE를 학습시킬 수 있는 파이프라인도 제공한다. 학습 과정에는 대량의 대조적 프롬프트 쌍 생성이 포함되며, 이는 Qwen3-VL과 같은 고성능 LLM을 통해 자동화할 수 있다.

python

from kiji_inspector import SAE
sae, feature_descriptions = SAE.from_pretrained(
    base_model="nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
    layer=20,
)
features = sae.encode(activations)
themes = sae.describe(features, top_k=5)

사전 학습된 SAE 모델을 로드하여 활성화 데이터를 해석 가능한 특징으로 변환하고 설명하는 예시

실무 Takeaway

AI 에이전트가 올바른 도구를 선택했더라도 그 내부 근거가 잘못된 경우를 Kiji Inspector의 특징 분석을 통해 식별하고 모델을 최적화할 수 있다.
Chain-of-Thought의 텍스트 설명 대신 SAE 기반의 내부 활성화 분석을 도입하면 모델의 '그럴듯한 거짓말'에 속지 않고 실제 계산 메커니즘을 검증할 수 있다.
규제 산업에서 AI 에이전트를 배포할 때 결정 토큰 기반의 해석 가능성 리포트를 생성하여 의사결정의 투명성과 신뢰성을 확보할 수 있다.

언급된 리소스

GitHubKiji Inspector GitHub Repository

논문Opening the Black Box: Mechanistic Interpretability for AI Agent Tool Selection Using Sparse Autoencoders