Latent Space PodcastResearch

토큰 단위 데이터 필터링을 통한 모델 능력 제어 및 Kimi K2.5 에이전트 아키텍처 분석

Sparse Autoencoder를 활용한 정밀한 지식 제거 기법과 Kimi K2.5의 멀티모달 학습 및 병렬 에이전트 오케스트레이션 구조를 심층적으로 분석합니다.

이 소스 글 더 보기 원문 보기

핵심 요약

Sparse Autoencoder(SAE)를 통해 토큰 단위로 데이터를 필터링하면 모델의 일반 성능을 유지하면서 특정 위험 지식만 효과적으로 제거할 수 있다. Kimi K2.5는 텍스트와 비전의 공동 학습 및 병렬 에이전트 강화학습(PARL)을 통해 추론 속도와 성능을 획기적으로 개선했다.

배경

OpenAI의 Alec Radford 등이 발표한 토큰 단위 데이터 필터링 논문과 Moonshot AI의 Kimi K2.5 기술 보고서를 다루는 Paper Club 세션이다.

대상 독자

LLM 학습 최적화, 데이터 큐레이션, 에이전트 아키텍처에 관심 있는 AI 연구자 및 엔지니어

의미 / 영향

이 연구들은 모델의 안전성(Safety) 제어와 에이전트의 실용적 성능 개선에 중요한 이정표를 제시한다. 특정 위험 지식을 사전 학습 단계에서 제거하는 기술은 기업용 특화 모델 구축 시 보안성을 높이는 데 즉시 활용될 수 있다. 또한 Kimi K2.5의 병렬 에이전트 구조는 복잡한 워크플로를 가진 AI 서비스의 응답 속도를 획기적으로 개선할 수 있는 아키텍처 표준을 보여준다.

챕터별 상세

01:00

토큰 단위 데이터 필터링의 필요성

기존의 문서 단위 필터링이나 사후 학습(Post-hoc) 방식의 한계를 확인했다. 한 번 학습된 지식은 제거하기 매우 어렵기 때문에 사전 학습(Pre-training) 단계에서 정밀하게 제어해야 한다는 결론에 도달했다. 토큰 단위 필터링은 문서 전체를 버리지 않고 특정 개념과 관련된 토큰만 마스킹하거나 제거하여 데이터 효율성을 극대화하는 방식이다.

•사후 학습 방식은 탈옥(Jailbreak) 공격에 취약하여 지식 제거에 한계가 있음
•문서 단위 필터링은 유용한 정보까지 함께 삭제되는 데이터 손실 문제가 발생함
•사전 학습 단계에서의 토큰 단위 개입이 가장 효과적이고 근본적인 해결책임

기존의 RLHF나 Unlearning 기법은 모델이 이미 배운 지식을 억제할 뿐 완전히 제거하지 못하는 경우가 많다.

05:00

SAE를 활용한 지식 식별 및 제거 프로세스

Sparse Autoencoder(SAE)를 사용하여 모델 내부의 잠재 특징(Latent features)을 추출하고 이를 통해 특정 지식(예: 의료 지식)과 관련된 토큰을 식별했다. Claude 3.5 Sonnet과 같은 모델을 분류기로 사용하여 SAE 특징이 활성화되는 토큰에 라벨을 부여했다. 식별된 토큰을 단순히 마스킹하는 것보다 'Hidden' 토큰으로 교체하거나 완전히 제거하는 방식이 모델의 망각(Forget) 성능과 유지(Retain) 성능 사이의 트레이드오프에서 더 우수한 결과를 보였다.

•SAE 특징 활성화를 기반으로 토큰 단위의 정밀한 데이터 라벨링 수행
•토큰 제거(Removal) 방식이 마스킹보다 성능 유지 측면에서 더 효율적임
•의료 지식 제거를 대리 작업(Proxy task)으로 설정하여 방법론의 유효성 검증

SAE는 모델의 복잡한 활성화 패턴을 인간이 이해할 수 있는 개념 단위로 분해하는 데 사용된다.

20:00

필터링 성능 분석 및 확장성

토큰 단위 필터링이 문서 단위 필터링보다 파레토 최적(Pareto improvement)에 가깝다는 사실을 확인했다. 모델 크기가 커질수록 필터링의 효과가 더 뚜렷하게 나타났으며, 적대적 파인튜닝(Adversarial fine-tuning) 공격에도 더 견고한 모습을 보였다. 특히 의료 지식을 제거하면서도 일반 생물학 지식은 유지하는 정밀한 제어가 가능함을 입증했다.

•모델 규모가 커질수록 토큰 단위 필터링의 효율성이 증가하는 스케일링 법칙 확인
•필터링된 모델은 제거된 지식을 다시 학습시키려는 시도에 대해 강한 저항성을 보임
•일반적인 추론 능력이나 관련 없는 도메인의 지식은 손상되지 않고 유지됨

파레토 최적이란 다른 성능을 저해하지 않으면서 특정 목표 성능을 향상시키는 상태를 의미한다.

40:00

Kimi K2.5의 멀티모달 공동 학습 구조

Kimi K2.5는 텍스트와 비전 데이터를 별도로 학습시킨 후 결합하는 기존 방식 대신, 초기 단계부터 공동 학습(Joint training)을 진행했다. 15조 개의 토큰을 사용하여 텍스트와 이미지를 동시에 학습시켰으며, 이를 통해 비전 능력이 텍스트 추론 능력에 긍정적인 영향을 미치는 시너지를 확인했다. 특히 'Zero-vision SFT' 기법을 통해 텍스트 데이터만으로도 모델의 시각적 추론 능력을 활성화하는 성과를 거두었다.

•텍스트와 비전의 초기 공동 학습을 통해 모달리티 간 상호 작용 강화
•Zero-vision SFT를 적용하여 데이터 효율성을 높이고 시각적 추론 성능 개선
•이미지 및 비디오 데이터를 통합적으로 처리하는 Moon-VIT 아키텍처 활용

Zero-vision SFT는 시각적 데이터 없이 텍스트 기반의 명령 수행 학습만으로도 모델의 잠재된 시각 능력을 끌어내는 기법이다.

50:00

Agent Swarm과 PARL 아키텍처

복잡한 작업을 하위 문제로 분해하고 병렬로 실행하는 'Agent Swarm' 프레임워크를 도입했다. 오케스트레이터 에이전트가 작업을 할당하고 여러 서브 에이전트가 동시에 실행되는 구조로, 기존 순차적 실행 대비 지연 시간(Latency)을 최대 4.5배 단축했다. Parallel Agent Reinforcement Learning(PARL)을 통해 오케스트레이터의 작업 분배 능력을 최적화했으며, 서브 에이전트들의 실행 궤적을 보상 설계에 반영했다.

•작업 분해 및 병렬 실행을 통해 에이전트 시스템의 응답 속도 획기적 개선
•PARL 기법으로 오케스트레이터의 효율적인 작업 할당 및 관리 능력 학습
•다양한 도메인 전문가 에이전트를 활용하여 복잡한 문제 해결 능력 극대화

에이전트 스웜은 개별 에이전트의 한계를 극복하기 위해 다수의 에이전트가 협력하는 구조를 말한다.

실무 Takeaway

특정 도메인 지식을 제거할 때 문서 단위 필터링보다 SAE 기반의 토큰 단위 필터링을 적용하면 데이터 손실을 최소화하면서 정밀한 제어가 가능하다.
멀티모달 모델 학습 시 비전과 텍스트를 초기부터 공동 학습(Joint Training)시키면 각 모달리티의 성능이 서로를 보완하며 향상되는 효과가 있다.
에이전트 시스템의 지연 시간을 줄이기 위해서는 작업을 병렬화하고, PARL과 같은 기법으로 오케스트레이터의 작업 분해 및 할당 능력을 강화해야 한다.

언급된 리소스

논문Shaping capabilities with token-level data filtering

GitHubKimi K2.5: Visual Agentic Intelligence

DemoNeuronpedia

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료