Mr. Chatterbox: 저작권 만료된 빅토리아 시대 텍스트로 학습된 로컬 LLM

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Trip Venturella가 대영도서관의 저작권 만료 텍스트 28,035권을 활용해 학습시킨 340M 파라미터 규모의 언어 모델 Mr. Chatterbox를 공개했다. 이 모델은 1837년부터 1899년 사이의 문헌으로만 구성된 29.3억 개의 토큰을 학습하여 19세기 특유의 어휘와 사고방식을 재현한다. 비록 대화의 논리적 완성도는 낮지만, 비라이선스 데이터를 배제한 윤리적 학습 데이터 활용의 가능성을 보여주는 실험적 프로젝트이다. Simon Willison은 Claude Code를 활용해 이 모델을 자신의 LLM 프레임워크에서 실행할 수 있는 플러그인을 제작하여 로컬 환경 배포를 시연했다.

배경

Python, Simon Willison의 LLM 프레임워크, 기본적인 CLI 사용 능력

대상 독자

로컬 LLM 실행 및 윤리적 데이터 학습에 관심 있는 개발자

의미 / 영향

이 프로젝트는 저작권 문제에서 자유로운 공공 도메인 데이터만으로도 특정 도메인에 특화된 모델을 구축할 수 있음을 시사한다. 비록 현재는 성능이 제한적이지만, 데이터 확보와 스케일링이 뒷받침된다면 상업적 리스크가 없는 고성능 특화 모델의 등장이 가능해질 것이다.

섹션별 상세

Mr. Chatterbox는 1837~1899년 사이 출판된 대영도서관의 공공 도메인 텍스트만을 학습 데이터로 사용했다. 28,035권의 도서에서 추출한 약 29.3억 개의 토큰을 통해 19세기 빅토리아 시대의 언어 스타일과 어휘를 재현했다. 학습 과정에서 1899년 이후의 데이터는 전혀 포함되지 않아 순수하게 19세기적 사고방식을 출력하도록 설계되었다. 이는 무단 스크래핑 데이터 없이 구축된 윤리적 모델이라는 점에 의의가 있다.

Mr. Chatterbox 챗봇의 인터페이스 스크린샷. — Screenshot빅토리아 시대 신사 컨셉의 챗봇 대화 내용을 보여준다. 사용자의 질문에 대해 시대적 배경이 반영된 정중하지만 다소 장황한 문체로 답변하는 모델의 특성을 시각적으로 확인할 수 있다.

모델의 크기는 약 340M 파라미터로 GPT-2 Medium과 유사한 규모이며 디스크 용량은 2.05GB 수준이다. Andrej Karpathy의 nanochat 프레임워크를 기반으로 학습되었으며 Hugging Face Spaces를 통해 웹 데모가 제공된다. 소규모 모델임에도 특정 시대의 문체를 모방하는 독특한 특성을 가지며 로컬 환경에서도 가볍게 실행 가능하다. 사용자는 별도의 고성능 GPU 없이도 일반적인 컴퓨터 환경에서 이 모델을 테스트할 수 있다.

현재 모델의 성능은 논리적인 답변보다는 마르코프 체인과 유사한 수준으로 평가된다. Chinchilla 스케일링 법칙에 따르면 340M 모델은 약 70억 개의 토큰이 필요하지만, 현재 학습 데이터는 그 절반 미만인 29.3억 개에 불과하다. 이로 인해 문법적으로는 그럴듯하지만 질문에 대한 유용한 답변을 생성하는 능력은 부족한 상태이다. 유용한 대화 파트너가 되기 위해서는 현재보다 4배 이상의 데이터가 추가로 필요할 것으로 분석된다.

Simon Willison은 Claude Code 에이전트를 사용하여 이 모델을 로컬에서 실행할 수 있는 llm-mrchatterbox 플러그인을 개발했다. Claude Code가 nanochat 소스 코드를 분석하고 Python 실행 스크립트와 플러그인 구조를 자동으로 생성하는 과정을 거쳤다. 이 과정에서 에이전트는 튜토리얼을 읽고 필요한 코드를 작성하며 오류를 수정하는 등 개발자 역할을 수행했다. 이를 통해 복잡한 모델 연동 과정을 에이전트의 도움으로 단시간에 완료할 수 있음을 증명했다.

실무 Takeaway

Chinchilla 법칙에 따른 데이터-파라미터 비율을 충족하지 못할 경우 모델의 추론 능력이 현저히 떨어질 수 있음을 확인했다.
Claude Code와 같은 코딩 에이전트를 활용하면 새로운 AI 모델을 기존 프레임워크용 플러그인으로 신속하게 이식하고 로컬 환경에 배포할 수 있다.

언급된 리소스

DemoMr. Chatterbox Hugging Face Space

GitHubllm-mrchatterbox Plugin