2025년 LLM 현황: 추론 모델, RLVR, 그리고 AI의 미래

핵심 요약

2025년 LLM 기술은 단순한 모델 크기 확장을 넘어 효율적인 사후 학습과 추론 능력 강화에 집중했다. DeepSeek R1의 등장은 RLVR(Verifiable Rewards)과 GRPO 알고리즘을 통한 추론 모델 개발의 새로운 표준을 제시하며 훈련 비용 절감의 가능성을 입증했다. 아키텍처 면에서는 MoE와 효율적인 어텐션 메커니즘이 보편화되었으며, 추론 단계에서 계산 자원을 더 투입하여 정확도를 높이는 추론 시간 스케일링 기술이 비약적으로 발전했다. 향후 AI 발전은 도메인 특화 데이터 활용과 지속적 학습을 중심으로 전개될 전망이다.

배경

Transformer 아키텍처, 강화학습(RLHF, PPO) 기초, MoE(Mixture-of-Experts) 개념, LoRA 파인튜닝 이해

대상 독자

LLM 아키텍처 및 강화학습 기반 추론 모델을 연구하는 AI 엔지니어

의미 / 영향

DeepSeek의 성과는 고성능 LLM 개발의 진입 장벽을 낮추었으며, 향후 업계는 거대 모델의 단순 확장보다 RLVR 기반의 효율적 사후 학습과 추론 최적화에 집중할 것이다. 이는 특정 도메인에 특화된 고성능 소형 모델의 확산으로 이어질 가능성이 크다.

섹션별 상세

DeepSeek R1은 강화학습을 통해 모델이 스스로 사고 과정을 생성하는 추론 모델의 대중화를 이끌었다. 671B 파라미터 모델인 DeepSeek V3의 훈련 비용이 약 500만 달러 수준으로 추정되면서 고성능 모델 개발 비용이 예상보다 훨씬 낮을 수 있음이 확인됐다. 이는 RLVR과 GRPO 알고리즘을 활용해 수학 및 코드와 같이 정답 확인이 가능한 영역에서 모델 성능을 획기적으로 높인 결과이다.

LLM 훈련의 초점이 사전 학습에서 미드 트레이닝 및 사후 학습으로 이동했다. 2022년 RLHF+PPO, 2023년 LoRA SFT, 2024년 미드 트레이닝에 이어 2025년은 RLVR+GRPO가 핵심 기술로 부상했다. 특히 GRPO는 기존 PPO 대비 계산 효율성이 높으며 KL 튜닝과 오프-폴리시 마스킹 등 다양한 기술적 트릭을 통해 학습 안정성이 크게 개선됐다.

아키텍처 면에서는 MoE(Mixture-of-Experts)와 효율적인 어텐션 메커니즘이 표준으로 자리 잡았다. Qwen3-Next나 Nemotron 3와 같이 선형 스케일링을 목표로 하는 하이브리드 아키텍처 연구가 활발히 진행됐다. 이는 대규모 배포 시 발생하는 막대한 추론 비용을 절감하기 위한 기업들의 전략적 선택으로 분석된다.

모델 성능 향상을 위해 훈련뿐만 아니라 추론 단계에서 더 많은 계산 자원을 투입하는 추론 시간 스케일링이 중요해졌다. 셀프 컨시스턴시와 셀프 리파인먼트를 결합하여 복잡한 문제의 정답률을 높이는 방식이 도입됐다. 또한 모델이 외부 도구(검색, 계산기 등)를 능동적으로 사용하는 도구 사용 능력이 강화되어 환각 현상을 줄이고 실무 활용도를 높였다.

벤치마크 점수를 높이는 데만 치중하는 벤치맥싱(Benchmaxxing) 현상이 심화되면서 공개 데이터셋에 대한 신뢰도 문제가 제기됐다. 2026년에는 저지연 추론을 위한 텍스트 확산 모델의 상용화와 에이전트 기능을 갖춘 로컬 도구 사용이 확산될 것으로 예측된다. 또한 RLVR 기술이 수학과 코드를 넘어 생물학, 화학 등 다양한 전문 도메인으로 확장될 것으로 보인다.