밑바닥부터 시작하는 LLM 학습 워크숍: 1시간 만에 나만의 GPT 만들기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

이 아티클은 외부 라이브러리나 사전 학습된 모델을 사용하지 않고 PyTorch만을 이용해 GPT 모델의 모든 구성 요소를 직접 구현하는 워크숍 가이드를 제공합니다. Andrej Karpathy의 nanoGPT를 기반으로 하되, 실습 편의를 위해 약 1,000만 개의 파라미터 규모로 축소하여 일반 노트북에서도 1시간 이내에 학습이 가능하도록 설계되었습니다. 독자는 토크나이저부터 트랜스포머 아키텍처, 학습 루프, 텍스트 생성 로직을 단계별로 작성하며 LLM의 작동 원리를 체득하게 됩니다. 최종적으로 셰익스피어 문체를 흉내 내는 텍스트 생성 모델을 완성하는 것을 목표로 합니다.

배경

Python 3.12 이상, 기본적인 Python 코드 독해 능력, PyTorch 기초 지식 (필수는 아니나 권장)

대상 독자

LLM의 내부 작동 원리를 코드로 직접 구현하며 배우고 싶은 개발자 및 AI 입문자

의미 / 영향

이 워크숍은 거대 모델의 API 호출에 의존하는 방식에서 벗어나, 모델의 최소 단위부터 직접 구축하는 교육적 접근을 강조합니다. 이는 개발자들이 LLM의 비용 최적화, 아키텍처 튜닝, 데이터 효율성 등을 깊이 있게 이해하는 토대가 됩니다.

섹션별 상세

기존 nanoGPT가 GPT-2 재현을 목표로 방대한 범위를 다루는 것과 달리, 이 프로젝트는 핵심 요소만 남겨 10M 파라미터 규모로 경량화했습니다. 이를 통해 M3 Pro 칩셋 기준 약 45분 만에 학습을 완료할 수 있어 단일 워크숍 세션 내에서 전체 파이프라인을 경험할 수 있습니다. 학습은 Apple Silicon(MPS), NVIDIA(CUDA), CPU를 자동으로 감지하여 최적의 하드웨어 가속을 사용합니다. 실습자는 블랙박스 라이브러리 없이 모든 코드를 직접 작성하며 모델의 내부 구조를 이해하게 됩니다.

모델 아키텍처는 트랜스포머의 표준 구조인 임베딩 레이어, 셀프 어텐션, 피드포워드 네트워크(MLP) 블록으로 구성됩니다. 입력 텍스트는 토큰 및 위치 임베딩을 거쳐 n개의 트랜스포머 블록을 통과하며, 각 블록 내에서는 LayerNorm과 잔차 연결(Residual Connection)이 적용됩니다. 최종적으로 선형 레이어를 통해 어휘 사전 크기만큼의 로짓(Logits)을 출력하여 다음 토큰의 확률 분포를 계산합니다. 기본 설정인 Medium 구성은 6개의 레이어와 6개의 헤드, 384차원의 임베딩 공간을 사용합니다.

소규모 데이터셋인 셰익스피어 텍스트(약 1MB)의 특성을 고려하여 BPE 대신 문자 단위(Character-level) 토크나이저를 채택했습니다. BPE는 약 5만 개의 어휘 사전을 가지므로 소량의 데이터로는 각 토큰의 패턴을 충분히 학습하기 어렵기 때문입니다. 문자 단위 토크나이저는 약 65개의 고유 문자로 어휘 사전을 구성하여 모델이 문맥을 더 쉽게 파악하도록 돕습니다. 이후 데이터셋 규모가 커질 경우를 대비해 Part 5에서 BPE로 전환하는 방법도 함께 다룹니다.

학습 루프 구현에서는 손실 함수 계산, AdamW 옵티마이저 적용, 그래디언트 클리핑, 학습률 스케줄링 등 실전적인 최적화 기법을 포함합니다. 모델이 예측한 값과 실제 다음 토큰 사이의 교차 엔트로피 손실을 최소화하는 방향으로 역전파가 진행됩니다. 학습이 완료된 후에는 온도(Temperature) 조절과 Top-k 샘플링 기법을 적용한 추론 로직을 통해 텍스트를 생성합니다. 이러한 과정을 통해 단순한 모델 구조뿐만 아니라 실제 모델이 수렴하는 학습 메커니즘 전반을 학습합니다.

실무 Takeaway

소규모 데이터셋(1MB 내외)으로 LLM을 학습시킬 때는 BPE보다 문자 단위 토크나이저를 사용하는 것이 모델의 패턴 학습 효율 측면에서 유리하다.
노트북 환경에서 빠른 실험을 위해 n_layer=6, n_head=6, n_embd=384 설정을 사용하면 1시간 내에 유의미한 텍스트 생성 능력을 갖춘 10M 모델을 학습할 수 있다.
Apple Silicon 환경에서는 PyTorch의 MPS(Metal Performance Shaders) 백엔드를 활용하여 CPU 대비 비약적인 학습 속도 향상을 얻을 수 있다.

언급된 리소스

GitHubnanoGPT GitHub

논문Attention Is All You Need

튜토리얼build-nanogpt video lecture