Stanford OnlineAI/ML조회 4회

스탠포드 CS25: Transformer의 역사, 작동 원리 및 최신 트렌드 개론

Transformer 아키텍처의 핵심 원리부터 사전 학습 전략, RAG, 에이전트 및 최신 연구 트렌드까지 포괄적으로 다루는 스탠포드 대학의 AI 세미나 강의이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Transformer는 Self-Attention을 통해 병렬 처리를 혁신했으며, 이제는 데이터 품질 개선과 아키텍처 효율화를 통해 AGI를 향해 진화하고 있다.

배경

스탠포드 대학교의 CS25 'Transformers United' 코스의 여섯 번째 반복 강의로, 현대 AI의 근간이 되는 Transformer 기술을 총망라한다.

대상 독자

AI/ML 기초 지식을 갖추고 최신 LLM 기술의 심층적인 이해를 원하는 학생 및 연구자

의미 / 영향

이 강의는 Transformer가 단순한 유행을 넘어 현대 AI의 표준 아키텍처로 자리 잡았음을 보여준다. 실무자들은 모델의 크기를 키우는 것만큼이나 고품질 데이터 큐레이션과 사후 학습(Post-training) 전략에 집중해야 한다. 향후 SSM이나 World Model과 같은 새로운 아키텍처의 등장은 현재의 연산 비용 문제를 해결하고 진정한 의미의 에이전트 AI 시대를 열 것으로 기대된다.

챕터별 상세

07:04

머신러닝과 NLP의 역사적 흐름

2012년 이전의 머신러닝은 수동으로 특징을 추출하는 방식이었으나 점차 Raw 데이터를 직접 사용하는 Supervised Deep Learning으로 진화했다. 이후 데이터 라벨링 비용 문제를 해결하기 위해 데이터 자체에서 정답을 찾는 Self-Supervised Learning이 핵심 방법론으로 자리 잡았다. 언어 모델링 분야에서는 단순한 감성 분석에서 시작하여 문맥을 고려한 다음 토큰 예측 방식으로 발전하며 대규모 언어 모델의 기반을 마련했다.

22:24

Transformer 아키텍처의 핵심 원리

Transformer는 Self-Attention 메커니즘을 사용하여 시퀀스 내 각 단어가 서로 어떻게 연결되는지 학습한다. Query, Key, Value 행렬 연산을 통해 도서관에서 책을 찾는 것과 유사한 방식으로 관련 정보를 추출한다. RNN과 달리 시퀀스를 한 번에 병렬로 처리할 수 있어 GPU 연산 효율이 극대화되며 장기 의존성 문제를 해결했다. Multi-Head Attention과 Positional Encoding을 결합하여 단어의 순서와 다양한 관계를 동시에 파악한다.

Query, Key, Value는 정보 검색 시스템에서 유래한 개념으로, 어텐션 스코어를 계산하는 핵심 요소이다.

44:30

데이터 중심의 사전 학습 전략

사전 학습 단계에서 데이터의 양보다 품질과 구조가 모델 성능에 더 큰 영향을 미친다는 사실이 확인됐다. 'BabyLM' 프로젝트 연구 결과, 어린이가 학습하는 수준의 적은 데이터로도 데이터의 문맥적 다양성과 상호작용성이 높으면 효율적인 학습이 가능했다. 다국어 학습 시에도 언어 간 간섭 없이 성공적으로 지식을 습득할 수 있음을 실험적으로 증명했다. 이는 무조건적인 데이터 증설보다 스마트한 데이터 큐레이션이 중요함을 시사한다.

66:00

RAG의 확장 법칙과 최적화

Retrieval Augmented Generation(RAG) 시스템에서 사전 학습 토큰과 검색 토큰 사이의 최적 배분을 연구했다. 실험 결과 소형 모델일수록 RAG를 통한 성능 향상 폭이 대형 모델보다 훨씬 컸다. 대형 모델은 이미 내부에 많은 지식을 저장하고 있어 일반적인 지식 검색의 효용이 상대적으로 낮았다. 특정 도메인 지식이 필요한 경우에만 RAG가 대형 모델에서도 유의미한 보완 수단이 됨을 확인했다.

RAG는 외부 데이터베이스에서 관련 정보를 검색하여 모델의 답변 생성에 활용하는 기술이다.

73:25

사후 학습 및 추론 기술

사전 학습된 모델을 특정 작업에 맞추기 위해 Fine-tuning, RLHF, DPO 등의 기법이 사용된다. Chain-of-Thought(CoT) 프롬프팅은 모델이 단계별로 사고하게 하여 복잡한 추론 능력을 비약적으로 향상시킨다. 최근에는 모델이 스스로 자신의 답변을 비판하고 수정하는 Self-Improvement 에이전트 기술이 주목받고 있다. DeepSeek의 GRPO와 같은 새로운 최적화 기법은 보상 모델 없이도 효율적인 정렬을 가능하게 한다.

DPO(Direct Preference Optimization)는 복잡한 강화학습 과정 없이 인간의 선호도를 직접 학습시키는 최신 기법이다.

77:00

Transformer의 한계와 미래 대안

Transformer는 연산 복잡도가 시퀀스 길이의 제곱에 비례하는 효율성 문제와 Hallucination 문제를 안고 있다. 이를 해결하기 위해 선형적 확장이 가능한 State Space Models(SSM)나 Mamba 아키텍처가 대안으로 연구되고 있다. 또한 단순 텍스트 예측을 넘어 세상의 물리적 법칙을 이해하는 World Model과 JEPA 아키텍처가 차세대 방향성으로 제시됐다. 궁극적으로는 인간처럼 지속적으로 학습하고 장기 기억을 보유한 시스템으로의 진화가 목표이다.

Hallucination(환각)은 모델이 사실과 다른 내용을 그럴듯하게 답변하는 현상을 말한다.

실무 Takeaway

Transformer의 Self-Attention은 병렬 처리를 가능하게 하여 RNN의 순차적 처리 한계를 극복하고 대규모 학습을 실현했다.
모델 성능은 데이터의 양(Quantity)보다 구조화된 품질(Quality)과 커리큘럼 설계에 더 크게 의존한다.
RAG 적용 시 모델 크기에 따라 검색 데이터의 효용이 다르므로 모델 규모에 맞는 검색 전략 수립이 필요하다.
Chain-of-Thought와 같은 추론 시간 연산(Inference-time compute) 강화가 모델의 논리적 문제 해결 능력을 결정짓는 핵심 요소이다.

언급된 리소스

문서CS25 Course Website

논문Attention Is All You Need

문서BabyLM Challenge

논문Mamba: Linear-Time Sequence Modeling

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 23.수집 2026. 04. 23.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.