핵심 요약
2025년 LLM 기술은 단순한 모델 크기 확장을 넘어 효율적인 사후 학습과 추론 능력 강화에 집중했다. DeepSeek R1의 등장은 RLVR(Verifiable Rewards)과 GRPO 알고리즘을 통한 추론 모델 개발의 새로운 표준을 제시하며 훈련 비용 절감의 가능성을 입증했다. 아키텍처 면에서는 MoE와 효율적인 어텐션 메커니즘이 보편화되었으며, 추론 단계에서 계산 자원을 더 투입하여 정확도를 높이는 추론 시간 스케일링 기술이 비약적으로 발전했다. 향후 AI 발전은 도메인 특화 데이터 활용과 지속적 학습을 중심으로 전개될 전망이다.
배경
Transformer 아키텍처, 강화학습(RLHF, PPO) 기초, MoE(Mixture-of-Experts) 개념, LoRA 파인튜닝 이해
대상 독자
LLM 아키텍처 및 강화학습 기반 추론 모델을 연구하는 AI 엔지니어
의미 / 영향
DeepSeek의 성과는 고성능 LLM 개발의 진입 장벽을 낮추었으며, 향후 업계는 거대 모델의 단순 확장보다 RLVR 기반의 효율적 사후 학습과 추론 최적화에 집중할 것이다. 이는 특정 도메인에 특화된 고성능 소형 모델의 확산으로 이어질 가능성이 크다.
섹션별 상세
이미지 분석

추론 모델이 답변을 내놓기 전 사고의 연쇄(Chain-of-Thought) 과정을 거침으로써 복잡한 문제 해결 능력을 향상시키는 메커니즘을 시각적으로 보여준다.
일반적인 LLM 답변과 중간 추론 단계를 포함한 추론 모델 답변의 비교 다이어그램이다.

671B 파라미터 모델의 총 훈련 비용이 약 557만 달러 수준임을 명시하여 고성능 모델 개발의 경제적 효율성을 입증하는 핵심 근거로 사용된다.
DeepSeek-V3 모델의 단계별 훈련 비용 추정치 테이블이다.

RLHF+PPO에서 시작하여 LoRA, 미드 트레이닝을 거쳐 2025년 RLVR+GRPO로 진화하는 기술적 흐름을 요약하여 보여준다.
2022년부터 2025년까지의 LLM 개발 중점 기술 타임라인이다.

기본 GRPO 대비 Olmo 3나 DeepSeek V3.2의 수정 사항을 적용했을 때 정확도가 향상되고 토큰 효율성이 개선됨을 수치로 증명한다.
다양한 GRPO 변형 기법에 따른 MATH-500 데이터셋 성능 비교 차트이다.
실무 Takeaway
- RLVR과 GRPO를 활용하여 수학 및 코드 도메인에서 모델의 추론 능력을 저비용으로 강화할 수 있다.
- 성능 한계 극복을 위해 훈련 데이터 확장뿐만 아니라 추론 시 반복적 사고를 유도하는 추론 시간 스케일링 전략이 필수적이다.
- 벤치마크 점수보다는 실무 도구 사용 능력과 도메인 특화 데이터 확보가 모델의 실질적 경쟁력을 결정한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료