처음부터 직접 만드는 LLM: 메리 셸리의 '프랑켄슈타인'으로 학습하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이 아티클은 메리 셸리의 소설 '프랑켄슈타인' 데이터를 활용하여 약 320만 개의 파라미터를 가진 소규모 언어 모델을 구축하는 과정을 다룹니다. 컴퓨터가 텍스트를 이해할 수 있도록 문자를 숫자로 변환하는 토큰화 단계부터 시작하여, 현대 AI의 핵심인 Transformer 아키텍처를 직접 코드로 구현합니다. Kaggle의 무료 GPU 환경에서 약 20분간의 학습을 통해 모델이 19세기 영어 문법과 문체를 습득하는 과정을 보여줍니다. 최종적으로 학습된 모델에 특정 문장을 입력했을 때 소설의 분위기를 반영한 텍스트를 생성하는 추론 단계까지 포함하여 LLM의 근본적인 작동 원리를 증명합니다.

배경

Python 기초 문법, PyTorch 라이브러리에 대한 기본 이해, Kaggle 노트북 사용법

대상 독자

LLM의 내부 작동 원리를 코드로 직접 구현하며 배우고 싶은 초중급 개발자 및 AI 입문자

의미 / 영향

거대 모델을 사용하지 않고도 단일 텍스트 소스를 활용해 특정 문체를 모방하는 소규모 언어 모델을 구축할 수 있음을 시사합니다. 이는 LLM이 마법이 아닌 통계와 수학적 최적화의 결과물임을 교육적으로 증명하며, 특정 목적의 초경량 모델 설계 가능성을 보여줍니다.

섹션별 상세

컴퓨터는 언어를 직접 이해하지 못하므로 텍스트를 수학적 신호인 숫자로 변환하는 토큰화 과정이 선행되어야 합니다. 이 튜토리얼에서는 영문자 하나하나를 숫자로 매핑하는 문자 단위 토큰화를 사용하여 모델이 알파벳의 통계적 배열을 학습하도록 설계했습니다. 전체 텍스트를 텐서 형태로 변환한 뒤 학습 데이터와 검증 데이터를 9:1 비율로 나누어 준비합니다. 이를 통해 모델은 입력된 문자열 다음에 올 가장 확률 높은 문자를 예측하는 기초를 다집니다.

현대 LLM의 근간인 Transformer 아키텍처를 축소된 형태로 직접 구현하여 병렬 데이터 처리 방식을 적용합니다. 셀프 어텐션 메커니즘을 통해 문맥 내 각 문자의 연관성을 계산하며, 미래의 정보를 미리 보지 못하도록 마스킹 기법을 사용합니다. 4개의 어텐션 헤드를 병렬로 실행하는 멀티헤드 어텐션 구조를 채택하여 구두점, 모음, 대문자 등 다양한 특징을 동시에 파악합니다. 최종적으로 피드포워드 레이어를 거쳐 모델이 수집된 문맥 정보를 바탕으로 다음 문자를 추론하는 논리 구조를 완성합니다.

python

class Head(nn.Module):
    def __init__(self, head_size):
        super().__init__()
        self.key = nn.Linear(n_embd, head_size, bias=False)
        self.query = nn.Linear(n_embd, head_size, bias=False)
        self.value = nn.Linear(n_embd, head_size, bias=False)
        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        B, T, C = x.shape
        k = self.key(x)
        q = self.query(x)
        wei = q @ k.transpose(-2, -1) * C**-0.5
        wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf'))
        wei = F.softmax(wei, dim=-1)
        wei = self.dropout(wei)
        v = self.value(x)
        out = wei @ v
        return out

Transformer의 핵심인 어텐션 메커니즘을 구현하며, 마스킹을 통해 미래 토큰을 보지 못하게 제한하는 코드

무작위로 설정된 327만 개의 파라미터를 최적화하기 위해 역전파와 AdamW 옵티마이저를 사용한 학습 과정을 수행합니다. 모델이 예측한 값과 실제 텍스트 사이의 오차인 손실(Loss)을 계산하고, 미분을 통해 각 파라미터가 오차에 기여한 정도를 파악하여 값을 미세하게 조정합니다. Kaggle GPU 환경에서 약 5,000회의 반복 학습을 거치면 손실 값이 약 4.6에서 1.2 수준으로 감소하며 모델이 언어 패턴을 습득합니다. 이 과정은 모델이 단순히 문장을 암기하는 것이 아니라 통계적인 문장 생성 규칙을 배우는 단계입니다.

python

for iter in range(max_iters):
    if iter % eval_interval == 0 or iter == max_iters - 1:
        losses = estimate_loss()
        print(f"Step {iter}: Train Loss {losses['train']:.4f}, Val Loss {losses['val']:.4f}")
    xb, yb = get_batch('train')
    logits, loss = model(xb, yb)
    optimizer.zero_grad(set_to_none=True)
    loss.backward()
    optimizer.step()

데이터 배치를 가져와 손실을 계산하고 역전파를 통해 가중치를 업데이트하는 학습 루프

학습이 완료된 모델은 사용자의 입력을 바탕으로 이어질 텍스트를 생성하는 추론(Inference) 기능을 수행합니다. 이 모델은 지시 사항을 따르는 챗봇 형태가 아닌, 입력된 문맥을 바탕으로 다음 단어를 예측하여 완성하는 원시적인 LLM의 형태를 띱니다. 'You are my creator'와 같은 입력을 주었을 때 'miserable forbiddence'와 같이 소설의 문체를 반영한 결과를 출력합니다. 비록 완벽한 문장은 아닐지라도 순수 수학과 계산만으로 언어의 구조를 재현할 수 있음을 확인시켜 줍니다.

실무 Takeaway

Transformer 아키텍처에서 마스킹(Masking)은 모델이 정답을 미리 보고 베끼는 것을 방지하여 과거 데이터만으로 미래를 예측하게 만드는 필수적인 장치이다.
약 320만 개의 파라미터만으로도 특정 도메인(소설 한 권)의 문체와 단어 조합 패턴을 유의미하게 학습할 수 있음을 보여준다.
원시 LLM은 지시 이행(Instruction Following) 능력이 없으므로, 챗봇처럼 활용하려면 추가적인 파인튜닝이나 RLHF 과정이 필요하다는 점을 명확히 인지해야 한다.

언급된 리소스

GitHubBuzzpy/Python-Machine-Learning-Models

문서Project Gutenberg - Frankenstein

문서Andrej Karpathy's State of GPT