2025년 LLM 현황: 진보, 과제 그리고 전망

핵심 요약

2025년은 LLM의 성능 포화 우려를 불식시키며 추론 모델과 강화학습 기법이 비약적으로 발전한 한 해였다. DeepSeek R1의 등장은 저비용 고효율 추론 모델 학습의 가능성을 입증했으며, RLVR(Verifiable Rewards)과 GRPO 알고리즘이 새로운 표준으로 부상했다. 모델 아키텍처 면에서는 MoE와 효율적인 어텐션 메커니즘이 주류가 되었고, 단순 학습 데이터 증설을 넘어 추론 시간 스케일링(Inference-time scaling)과 도구 사용(Tool Use) 능력이 실질적인 성능 향상을 견인했다. 향후 2026년에는 이러한 기법들이 수학과 코딩을 넘어 다양한 도메인으로 확장될 것으로 전망된다.

배경

LLM 기본 아키텍처, 강화학습 기초, SFT/RLHF 개념

대상 독자

LLM 프로덕션 개발자 및 AI 연구원

의미 / 영향

LLM 개발 비용이 예상보다 낮아짐에 따라 독점적 모델의 우위가 약화되고, 기업들이 자체 보유한 도메인 특화 데이터를 활용해 고성능 맞춤형 모델을 구축하는 추세가 가속화될 것이다.

섹션별 상세

DeepSeek R1의 공개는 강화학습을 통해 모델이 스스로 사고 과정을 생성하는 추론 모델 시대를 열었다. R1은 오픈 가중치 모델임에도 유료 모델에 필적하는 성능을 보였으며, 특히 수백만 달러 수준의 상대적으로 저렴한 비용으로 최첨단 모델 학습이 가능함을 입증했다.

기존의 RLHF가 인간의 피드백에 의존했다면, 2025년은 검증 가능한 보상을 활용하는 RLVR과 효율적인 최적화 알고리즘인 GRPO가 핵심 기술로 자리 잡았다. 수학이나 코딩처럼 정답이 명확한 분야에서 결정론적인 보상을 통해 모델을 학습시킴으로써 데이터 구축 비용을 획기적으로 줄이고 성능을 극대화했다.

2022년 RLHF+PPO, 2023년 LoRA SFT, 2024년 미드 트레이닝에 이어 2025년은 RLVR+GRPO가 개발의 중심이 되었다. 이는 단순한 사전 학습을 넘어 사후 학습 단계에서 모델의 논리적 사고 능력을 끌어올리는 방향으로 기술적 초점이 이동했음을 의미한다.

학습 단계의 스케일링뿐만 아니라, 모델이 답변을 생성할 때 더 많은 연산 자원과 시간을 투입하여 정확도를 높이는 추론 시간 스케일링 기법이 중요해졌다. 자기 일관성과 자기 정제 반복을 통해 어려운 수학 문제 등에서 골드 레벨의 성능을 달성하는 등, 지연 시간과 비용을 담보로 높은 정확도를 얻는 전략이 유효해졌다.

최첨단 모델들은 여전히 디코더 전용 트랜스포머를 기반으로 하지만, MoE와 MLA 같은 효율적인 어텐션 메커니즘으로 수렴하고 있다. 또한 선형 스케일링을 목표로 하는 Mamba-2나 Gated DeltaNet 같은 하이브리드 구조가 비용 절감을 위해 적극적으로 도입되고 있다.

리더보드 점수를 높이는 것에만 매몰되는 벤치맥싱이 심화되면서 공개된 테스트 세트가 학습 데이터에 포함되는 등 벤치마크 수치의 신뢰도가 하락했다. 이에 따라 단순 점수보다는 실제 사용 환경에서의 유용성과 도구 사용 능력이 모델의 진정한 가치를 판단하는 척도로 부상하고 있다.

모델이 외부 검색 엔진이나 계산기 API를 직접 활용하도록 학습됨으로써 고질적인 문제인 할루시네이션이 크게 개선되었다. 특히 OpenAI의 gpt-oss 모델처럼 도구 사용에 특화된 모델들이 등장하며 에이전트 기반 시스템 구축의 기반이 마련되었다.

이미지 분석

Diagram
일반 모델은 정답만 출력하는 반면, 추론 모델은 중간 사고 과정(Chain-of-Thought)을 거쳐 정답을 도출함을 보여준다. 이러한 중간 단계가 답변의 정확도를 높이는 핵심 요소임을 시각화한다.
일반 LLM과 추론 LLM의 응답 방식 차이 비교

Chart
671B 파라미터 모델의 사전 학습 및 사후 학습 비용이 약 557만 달러임을 명시한다. 이는 최첨단 모델 학습 비용이 기존 수억 달러 예상치보다 훨씬 낮을 수 있음을 입증하는 근거 데이터다.
DeepSeek-V3 모델의 학습 비용 상세 내역

Chart
V3 모델 위에 R1 추론 능력을 추가하는 데 드는 비용이 약 29만 달러에 불과함을 보여준다. 효율적인 강화학습 기법이 모델 고도화 비용을 얼마나 절감할 수 있는지 구체적 수치로 제시한다.
DeepSeek-R1 모델의 추가 학습 비용

Infographic
2022년부터 2025년까지 RLHF, LoRA, 미드 트레이닝, RLVR+GRPO로 이어지는 기술적 유행의 변화를 요약한다. 현재 시점에서 어떤 기술이 가장 활발하게 연구되고 있는지 한눈에 파악할 수 있게 돕는다.
연도별 LLM 개발 중점 기술 타임라인

Chart
자기 정제(Self-refinement) 반복 횟수가 늘어날수록 수학 문제 해결 정확도가 상승함을 보여준다. 학습뿐만 아니라 추론 단계에서의 연산 투입이 성능 향상의 중요한 레버임을 증명한다.
추론 시간 스케일링에 따른 정확도 향상 그래프

실무 Takeaway

RLVR과 GRPO를 활용한 사후 학습은 수학, 코딩 등 정답 확인이 가능한 도메인에서 모델 성능을 비약적으로 향상시키는 가장 효율적인 방법이다.
실무에서는 단순 모델 크기 확장보다 추론 시간 스케일링과 도구 사용을 통해 특정 작업의 정확도를 높이는 것이 더 경제적일 수 있다.
벤치마크 점수에만 의존하지 말고, 실제 도메인 데이터와 도구 사용 시나리오를 바탕으로 모델의 실질적 문제 해결 능력을 직접 검증해야 한다.

언급된 리소스

GitHubBuild A Reasoning Model (From Scratch)

문서The Big LLM Architecture Comparison

논문DeepSeek-R1 Paper