핵심 요약
Sparse Autoencoder(SAE)를 통해 토큰 단위로 데이터를 필터링하면 모델의 일반 성능을 유지하면서 특정 위험 지식만 효과적으로 제거할 수 있다. Kimi K2.5는 텍스트와 비전의 공동 학습 및 병렬 에이전트 강화학습(PARL)을 통해 추론 속도와 성능을 획기적으로 개선했다.
배경
OpenAI의 Alec Radford 등이 발표한 토큰 단위 데이터 필터링 논문과 Moonshot AI의 Kimi K2.5 기술 보고서를 다루는 Paper Club 세션이다.
대상 독자
LLM 학습 최적화, 데이터 큐레이션, 에이전트 아키텍처에 관심 있는 AI 연구자 및 엔지니어
의미 / 영향
이 연구들은 모델의 안전성(Safety) 제어와 에이전트의 실용적 성능 개선에 중요한 이정표를 제시한다. 특정 위험 지식을 사전 학습 단계에서 제거하는 기술은 기업용 특화 모델 구축 시 보안성을 높이는 데 즉시 활용될 수 있다. 또한 Kimi K2.5의 병렬 에이전트 구조는 복잡한 워크플로를 가진 AI 서비스의 응답 속도를 획기적으로 개선할 수 있는 아키텍처 표준을 보여준다.
챕터별 상세
토큰 단위 데이터 필터링의 필요성
- •사후 학습 방식은 탈옥(Jailbreak) 공격에 취약하여 지식 제거에 한계가 있음
- •문서 단위 필터링은 유용한 정보까지 함께 삭제되는 데이터 손실 문제가 발생함
- •사전 학습 단계에서의 토큰 단위 개입이 가장 효과적이고 근본적인 해결책임
기존의 RLHF나 Unlearning 기법은 모델이 이미 배운 지식을 억제할 뿐 완전히 제거하지 못하는 경우가 많다.
SAE를 활용한 지식 식별 및 제거 프로세스
- •SAE 특징 활성화를 기반으로 토큰 단위의 정밀한 데이터 라벨링 수행
- •토큰 제거(Removal) 방식이 마스킹보다 성능 유지 측면에서 더 효율적임
- •의료 지식 제거를 대리 작업(Proxy task)으로 설정하여 방법론의 유효성 검증
SAE는 모델의 복잡한 활성화 패턴을 인간이 이해할 수 있는 개념 단위로 분해하는 데 사용된다.
필터링 성능 분석 및 확장성
- •모델 규모가 커질수록 토큰 단위 필터링의 효율성이 증가하는 스케일링 법칙 확인
- •필터링된 모델은 제거된 지식을 다시 학습시키려는 시도에 대해 강한 저항성을 보임
- •일반적인 추론 능력이나 관련 없는 도메인의 지식은 손상되지 않고 유지됨
파레토 최적이란 다른 성능을 저해하지 않으면서 특정 목표 성능을 향상시키는 상태를 의미한다.
Kimi K2.5의 멀티모달 공동 학습 구조
- •텍스트와 비전의 초기 공동 학습을 통해 모달리티 간 상호 작용 강화
- •Zero-vision SFT를 적용하여 데이터 효율성을 높이고 시각적 추론 성능 개선
- •이미지 및 비디오 데이터를 통합적으로 처리하는 Moon-VIT 아키텍처 활용
Zero-vision SFT는 시각적 데이터 없이 텍스트 기반의 명령 수행 학습만으로도 모델의 잠재된 시각 능력을 끌어내는 기법이다.
Agent Swarm과 PARL 아키텍처
- •작업 분해 및 병렬 실행을 통해 에이전트 시스템의 응답 속도 획기적 개선
- •PARL 기법으로 오케스트레이터의 효율적인 작업 할당 및 관리 능력 학습
- •다양한 도메인 전문가 에이전트를 활용하여 복잡한 문제 해결 능력 극대화
에이전트 스웜은 개별 에이전트의 한계를 극복하기 위해 다수의 에이전트가 협력하는 구조를 말한다.
실무 Takeaway
- 특정 도메인 지식을 제거할 때 문서 단위 필터링보다 SAE 기반의 토큰 단위 필터링을 적용하면 데이터 손실을 최소화하면서 정밀한 제어가 가능하다.
- 멀티모달 모델 학습 시 비전과 텍스트를 초기부터 공동 학습(Joint Training)시키면 각 모달리티의 성능이 서로를 보완하며 향상되는 효과가 있다.
- 에이전트 시스템의 지연 시간을 줄이기 위해서는 작업을 병렬화하고, PARL과 같은 기법으로 오케스트레이터의 작업 분해 및 할당 능력을 강화해야 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료