핵심 요약
Transformer는 Self-Attention을 통해 병렬 처리를 혁신했으며, 이제는 데이터 품질 개선과 아키텍처 효율화를 통해 AGI를 향해 진화하고 있다.
배경
스탠포드 대학교의 CS25 'Transformers United' 코스의 여섯 번째 반복 강의로, 현대 AI의 근간이 되는 Transformer 기술을 총망라한다.
대상 독자
AI/ML 기초 지식을 갖추고 최신 LLM 기술의 심층적인 이해를 원하는 학생 및 연구자
의미 / 영향
이 강의는 Transformer가 단순한 유행을 넘어 현대 AI의 표준 아키텍처로 자리 잡았음을 보여준다. 실무자들은 모델의 크기를 키우는 것만큼이나 고품질 데이터 큐레이션과 사후 학습(Post-training) 전략에 집중해야 한다. 향후 SSM이나 World Model과 같은 새로운 아키텍처의 등장은 현재의 연산 비용 문제를 해결하고 진정한 의미의 에이전트 AI 시대를 열 것으로 기대된다.
챕터별 상세
머신러닝과 NLP의 역사적 흐름
Transformer 아키텍처의 핵심 원리
Query, Key, Value는 정보 검색 시스템에서 유래한 개념으로, 어텐션 스코어를 계산하는 핵심 요소이다.
데이터 중심의 사전 학습 전략
RAG의 확장 법칙과 최적화
RAG는 외부 데이터베이스에서 관련 정보를 검색하여 모델의 답변 생성에 활용하는 기술이다.
사후 학습 및 추론 기술
DPO(Direct Preference Optimization)는 복잡한 강화학습 과정 없이 인간의 선호도를 직접 학습시키는 최신 기법이다.
Transformer의 한계와 미래 대안
Hallucination(환각)은 모델이 사실과 다른 내용을 그럴듯하게 답변하는 현상을 말한다.
실무 Takeaway
- Transformer의 Self-Attention은 병렬 처리를 가능하게 하여 RNN의 순차적 처리 한계를 극복하고 대규모 학습을 실현했다.
- 모델 성능은 데이터의 양(Quantity)보다 구조화된 품질(Quality)과 커리큘럼 설계에 더 크게 의존한다.
- RAG 적용 시 모델 크기에 따라 검색 데이터의 효용이 다르므로 모델 규모에 맞는 검색 전략 수립이 필요하다.
- Chain-of-Thought와 같은 추론 시간 연산(Inference-time compute) 강화가 모델의 논리적 문제 해결 능력을 결정짓는 핵심 요소이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.