Stanford OnlineLLM조회 2회

스탠포드 CS221: 언어 모델(Language Models)의 원리와 발전

현대 AI의 핵심인 언어 모델의 수학적 정의, Transformer 아키텍처, Scaling Laws, 그리고 RLHF를 통한 정렬 과정을 포괄적으로 다루는 기술 강의이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

언어 모델은 단순한 텍스트 완성을 넘어 Scaling Laws와 정렬 기법을 통해 범용적인 지능을 구현하며, 현대 AI 시스템의 핵심 엔진 역할을 수행한다.

배경

스탠포드 대학교의 대표적인 AI 강의인 CS221의 일환으로, 현대 생성형 AI의 근간이 되는 언어 모델의 이론과 실무적 발전 과정을 다룹니다.

대상 독자

AI/ML의 기초 지식을 갖추고 LLM의 내부 작동 원리를 깊이 있게 이해하고자 하는 학생 및 엔지니어

의미 / 영향

이 강의는 LLM이 단순한 유행이 아니라 수학적, 시스템적 근거를 가진 기술적 진화임을 명확히 한다. 개발자들은 모델의 스케일링 특성을 이해함으로써 자원 투입의 효율성을 예측할 수 있으며, RLHF와 같은 정렬 기법을 통해 특정 도메인에 맞는 안전한 AI 서비스를 설계할 수 있는 통찰을 얻게 된다. 향후 AI 발전은 모델의 크기뿐 아니라 데이터의 품질과 시스템적 효율성 개선에 집중될 것임을 시사한다.

챕터별 상세

00:00

언어 모델의 정의와 산업적 규모

현대 언어 모델이 일상과 산업 전반에 걸쳐 어떻게 활용되고 있는지 개괄한다. Llama 3.1 405B 모델이나 Qwen 모델과 같이 수십 조 개의 토큰으로 학습되는 거대 모델의 규모를 설명하며, 이를 학습시키기 위해 필요한 컴퓨팅 자원과 데이터의 방대함을 수치로 제시한다. 언어 모델이 단순한 텍스트 생성을 넘어 로보틱스, 코드 완성, 음성 인식 등 다양한 분야의 기반 기술로 자리 잡았음을 강조한다.

•Llama 3.1 405B 모델 학습에 약 3.8e25 FLOPs의 연산량이 소요됨
•학습 데이터 36T 토큰은 종이로 쌓았을 때 우주 정거장 높이를 훨씬 상회하는 규모임
•NVIDIA H100 GPU 수천 대를 수개월간 가동해야 하는 거대한 산업적 공정임

05:48

언어 모델의 수학적 모델링

언어 모델을 수학적으로 정의하며, 텍스트를 구조화된 캐릭터 시퀀스로 간주한다. 모델의 핵심은 주어진 시퀀스 다음에 올 단어의 확률 분포를 학습하는 것이며, 이는 Vocabulary와 Grammar라는 두 가지 요소로 구성된다. 특정 문장 완성 예시를 통해 모델이 실제 세상의 지식을 바탕으로 가장 그럴듯한 다음 단어를 선택하는 확률적 과정을 설명한다.

•언어 모델은 시퀀스에 대한 확률 분포 P(sequence)를 학습하는 객체임
•Chain Rule을 적용하여 결합 확률을 조건부 확률의 곱으로 분해하여 계산함
•현실 세계의 맥락(예: 주식 시장 폭락)을 이해해야 정확한 확률 예측이 가능함

17:11

텐서 관점에서의 작동 원리

컴퓨터가 언어를 처리하는 방식을 텐서와 행렬 연산 관점에서 분석한다. 각 단어는 고차원 벡터인 Embedding으로 변환되며, 입력 시퀀스는 (T, D) 형태의 행렬로 표현된다. 모델의 출력은 전체 Vocabulary 크기에 대한 확률 벡터인 (T, V) 텐서이며, 이를 통해 각 위치에서 다음에 올 단어를 Multi-class Classification 문제로 해결한다. 이 과정에서 Autoregression 기법을 통해 단어를 하나씩 순차적으로 생성하는 메커니즘을 다룬다.

•입력 단어 ID를 Embedding Matrix를 통해 연속적인 벡터 공간으로 투사함
•Softmax 함수를 사용하여 Vocabulary 상의 확률 분포를 생성함
•Autoregressive 생성을 통해 이전 출력을 다음 입력으로 사용하는 반복 구조를 가짐

24:27

학습 목적 함수: NTP와 MLM

언어 모델을 학습시키는 주요 목적 함수인 Next-word Prediction(NTP)과 Masked Language Modeling(MLM)을 비교한다. NTP는 현대 LLM의 표준으로, 시퀀스를 순차적으로 읽으며 다음 토큰을 예측하는 방식이다. 반면 MLM은 BERT와 같은 모델에서 사용되었으며, 문장 중간의 빈칸을 채우는 방식이다. 현재는 생성 능력이 뛰어난 NTP 방식이 주류를 이루고 있음을 설명한다.

•NTP는 별도의 라벨링 없이 텍스트 자체를 Ground Truth로 사용하는 자기지도학습임
•MLM은 양방향 문맥 이해에 강점이 있으나 텍스트 생성에는 한계가 있음
•대규모 Pre-training에서는 NTP가 멀티태스크 학습 능력을 이끌어내는 데 효율적임

31:09

언어 모델링이 강력한 이유: 멀티태스크 학습

단순한 다음 단어 예측이 어떻게 복잡한 지능으로 이어지는지 논의한다. 이메일 작성, 코드 구현, 논리 퍼즐 풀이 등 인간의 많은 활동이 결국 시퀀스 완성 문제로 치환될 수 있기 때문이다. 모델이 방대한 인터넷 텍스트를 학습하며 사실 관계, 수학적 원리, 논리적 추론 패턴을 자연스럽게 습득하게 되는 과정을 설명한다. 이를 통해 특정 작업에 특화되지 않은 범용적인 지능이 발현됨을 강조한다.

•모든 텍스트 기반 작업은 시퀀스 완성 문제로 공식화 가능함
•Wikipedia 학습을 통해 사실적 지식을, 수학 문서를 통해 연산 원리를 체득함
•GPT-2 논문에서 제시된 'Unsupervised Multitask Learner' 개념을 인용함

38:16

Scaling Laws와 성능의 상관관계

모델의 크기, 데이터의 양, 컴퓨팅 자원이 증가함에 따라 모델의 성능(Loss)이 예측 가능하게 개선된다는 Scaling Laws를 다룬다. OpenAI의 Kaplan Scaling Laws와 DeepMind의 Chinchilla Scaling Laws를 비교하며, 주어진 컴퓨팅 예산 내에서 모델 파라미터 수와 데이터 토큰 수의 최적 비율을 찾는 것이 중요함을 설명한다. 이 법칙 덕분에 거대 자본을 투입하기 전 모델의 최종 성능을 미리 예측할 수 있게 되었다.

•Test Loss는 컴퓨팅 자원과 데이터 크기에 대해 Power-law 관계를 따름
•Chinchilla 법칙은 기존 모델들이 파라미터 수에 비해 데이터가 부족했음을 시사함
•스케일링을 통해 별도의 튜닝 없이도 모델의 일반화 능력이 비약적으로 상승함

44:45

모델 아키텍처: Transformer의 핵심

기존 MLP의 한계를 지적하고 Transformer 아키텍처가 왜 LLM의 표준이 되었는지 설명한다. MLP는 고정된 가중치를 사용하여 입력 위치에 따른 유연한 대응이 어렵고 연산 재사용이 불가능하다. 반면 Transformer의 Attention 메커니즘은 입력 시퀀스 내에서 중요한 부분에 동적으로 가중치를 부여하며, 병렬 연산에 최적화되어 대규모 학습을 가능하게 한다. KV Cache를 통한 추론 효율화 기법도 함께 언급한다.

•Attention 메커니즘은 입력 데이터에 따라 동적으로 가중치를 생성함
•Parameter Sharing을 통해 시퀀스 길이에 따른 파라미터 폭발을 방지함
•KV Cache를 사용하여 이전 토큰의 연산 결과를 재사용함으로써 추론 속도를 높임

55:36

Pre-training과 Post-training 과정

LLM 구축의 두 단계인 Pre-training과 Post-training을 상세히 다룬다. Pre-training은 인터넷의 방대한 데이터를 학습하여 지식의 베이스를 구축하는 단계이다. Post-training은 학습된 베이스 모델을 사용자의 지시에 따르도록 정렬하는 과정으로, Supervised Fine-tuning(SFT)과 Reinforcement Learning from Human Feedback(RLHF)이 포함된다. 특히 RLHF는 인간의 선호도를 반영한 Reward Model을 통해 모델의 답변 품질과 안전성을 높이는 핵심 기술이다.

•Pre-training은 모델의 잠재적 능력과 지식을 형성하는 단계임
•RLHF는 PPO와 같은 정책 경사 알고리즘을 사용하여 모델을 인간의 의도에 정렬함
•Safety Tuning을 통해 유해한 질문에 대한 거부 반응을 학습시킴

63:30

토큰화(Tokenization)와 시스템 최적화

텍스트를 모델이 이해할 수 있는 단위로 쪼개는 Tokenization 기술을 설명한다. Byte-Pair Encoding(BPE) 기법을 통해 빈번하게 등장하는 문자 조합을 하나의 토큰으로 묶어 효율성을 높이는 방식을 다룬다. 또한, 거대 모델을 실제 하드웨어에 올리기 위한 Quantization(양자화), Parallelism(병렬화), Sharding(샤딩) 기술을 소개한다. 메모리 대역폭의 한계를 극복하기 위한 Kernel Fusion과 FlashAttention의 중요성도 강조한다.

•BPE는 서브워드 단위를 사용하여 미등록 단어(OOV) 문제를 해결함
•Quantization은 가중치를 낮은 정밀도(예: 4-bit)로 저장하여 메모리를 절약함
•FlashAttention은 메모리 접근 횟수를 줄여 Attention 연산 속도를 획기적으로 개선함

74:05

현대 LLM 생태계와 미래 과제

현재 LLM 시장의 구도를 폐쇄형 모델(GPT, Claude)과 오픈 가중치 모델(Llama, Qwen)로 나누어 분석한다. 각 진영의 전략적 차이와 성능 격차가 줄어들고 있는 현상을 짚어본다. 마지막으로 저작권, 데이터 프라이버시, 모델의 내부 작동 원리 해석(Interpretability), 그리고 초지능의 위험성에 대비한 AI Safety 연구의 중요성을 역설하며 강의를 마무리한다.

•오픈 가중치 모델들이 폐쇄형 모델의 성능을 빠르게 추격하고 있음
•모델 내부의 추론 과정을 이해하려는 Interpretability 연구가 활발함
•AI Safety는 기술적 정렬을 넘어 사회적, 윤리적 합의가 필요한 영역임

실무 Takeaway

언어 모델은 단순한 통계적 예측을 넘어, 방대한 데이터를 Scaling Laws에 따라 학습함으로써 고차원적인 추론과 멀티태스크 수행 능력을 획득한다.
Transformer 아키텍처의 Attention 메커니즘은 입력 데이터의 맥락에 따라 가중치를 동적으로 조절하여 MLP나 RNN의 구조적 한계를 극복한다.
모델의 지능은 Pre-training에서 형성되지만, 실제 유용성과 안전성은 SFT와 RLHF를 포함한 Post-training 정렬 과정을 통해 완성된다.
거대 모델의 실무 배포를 위해서는 Quantization과 FlashAttention 같은 시스템 최적화 기술이 필수적이며, 이는 하드웨어 제약을 극복하는 핵심 요소이다.

언급된 리소스

논문Attention Is All You Need

논문Language Models are Few-Shot Learners (GPT-3)

논문Training Compute-Optimal Large Language Models (Chinchilla)

문서Stanford CS221 Course Schedule

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 10.수집 2026. 03. 10.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

스탠포드 CS221: 언어 모델(Language Models)의 원리와 발전 | AI Trends