2025 Interconnects 연말 결산: AI 연구와 오픈 모델의 격변기

핵심 요약

2025년은 강화학습(RL)과 추론 모델(Reasoning Models)이 AI 생태계의 중심에 선 한 해였다. Interconnects는 DeepSeek V3/R1의 등장과 이에 대응하는 미국 내 오픈 모델 프로젝트(ATOM) 등 급변하는 기술 트렌드를 심도 있게 분석했다. 특히 중국 오픈 모델의 약진과 추론 시간 스케일링(Inference-time scaling)의 부상은 기존 프론티어 모델들의 독점적 지위에 강력한 도전장을 내밀었다. 저자는 연구자이자 분석가로서 80여 개의 포스트를 통해 기술적 진보와 업계의 지속 가능성을 동시에 조명했다.

배경

LLM 기본 구조 및 트랜스포머 아키텍처, RLHF(강화학습 기반 인간 피드백)의 개념, 오픈 소스 AI 생태계 및 주요 모델(Llama, Qwen 등)에 대한 이해

대상 독자

AI 연구자, ML 엔지니어, AI 전략가 및 정책 입안자

의미 / 영향

2025년의 성과는 AI가 단순한 통계적 예측 모델에서 논리적 추론 체계로 전환되었음을 의미한다. 이는 향후 자율 에이전트 시대를 가속화하며, 오픈 소스 모델이 프론티어 모델의 성능을 빠르게 추격함에 따라 AI 기술의 민주화와 경쟁 지형의 재편이 가속화될 것으로 전망된다.

섹션별 상세

DeepSeek V3와 R1의 등장은 프론티어 AI 모델 학습 비용에 대한 기존의 상식을 뒤엎으며 업계에 큰 충격을 주었다. 특히 R1의 추론 모델 복제 레시피는 o1과 같은 고성능 추론 모델의 대중화를 앞당기는 계기가 되었다. 이는 단순히 모델의 성능 향상을 넘어, 효율적인 학습 방법론이 모델의 가치를 결정짓는 핵심 요소임을 입증한 사례이다.

강화학습(RL)의 르네상스가 도래하며 단순한 텍스트 생성을 넘어 생각하고, 검색하고, 행동하는 추론 모델의 세 가지 기본 요소가 정립되었다. GRPO 변형이나 무작위 보상을 활용한 RL 등 새로운 기법들이 실질적인 성능 향상을 이끌어내는 과정이 상세히 분석되었다. 이러한 기술적 흐름은 모델이 복잡한 문제를 해결하기 위해 스스로 사고 과정을 거치는 '추론 시간 스케일링'의 시대를 열었다.

중국 오픈 모델 빌더인 Qwen과 Kimi 등이 글로벌 표준으로 자리 잡으며 미국 중심의 AI 지형에 균열을 냈다. 이들은 연구와 실무 모두에서 뛰어난 성능을 보이며 오픈 소스 생태계의 주도권을 확보하기 시작했다. 이에 대응하여 미국 내에서도 ATOM 프로젝트와 같은 진정한 오픈 모델 투자의 필요성이 강력하게 제기되었으며, 이는 국가적 차원의 기술 경쟁으로 번지고 있다.

코딩은 AI 발전의 진앙지로 기능하며 모델의 실제 진보를 체감할 수 있는 가장 중요한 분야로 확인되었다. 에이전트 기반 앱으로서의 ChatGPT와 같은 변화는 모델이 단순 도구를 넘어 자율적인 해결사로 진화하고 있음을 보여준다. 특히 코딩 데이터는 모델의 논리적 사고 능력을 학습시키는 데 핵심적인 역할을 수행하며 전체적인 지능 향상을 견인했다.

기술적 성취 이면에 존재하는 AI 업계의 번아웃 문제와 연구 조직 관리 등 생태계 전반의 지속 가능성에 대해서도 깊이 있는 통찰이 공유되었다. 급격한 변화 속에서 연구자들이 겪는 심리적 압박과 효율적인 팀 운영 방식은 기술 개발만큼이나 중요한 과제로 부각되었다. 저자는 완벽함보다 지속적인 실천과 올바른 방향 설정이 AI 연구의 핵심임을 강조했다.

이미지 분석

Chart
컴퓨팅 자원(Compute C) 투입량에 따른 기대 보상(Expected Reward Rc)의 변화를 보여준다. 파라미터 A, B, Cmid를 통해 모델 성능이 점진적으로 수렴하는 과정을 수학적으로 모델링하여 RL 학습의 효율성을 분석하는 데 활용된다.
강화학습(RL) 스케일링 법칙을 설명하는 수식과 그래프이다.

Infographic
Frontier 그룹에 DeepSeek, Anthropic, OpenAI를 배치하여 현재 시장의 주도권을 시각화했다. 중국 기업(Qwen, Kimi)과 미국 기업들의 상대적 위치를 통해 2025년의 경쟁 지형을 한눈에 파악할 수 있게 돕는다.
AI 모델 개발사들을 성능과 영향력에 따라 분류한 티어 리스트이다.

실무 Takeaway

추론 시간 스케일링(Inference-time scaling)은 모델 성능 향상의 새로운 핵심 축으로 자리 잡았으므로 이를 위한 RL 인프라 구축이 필수적이다.
중국발 오픈 모델(Qwen, DeepSeek)의 기술적 수준이 프론티어 모델에 근접했으므로 연구 및 개발 시 이들을 벤치마크 및 베이스 모델로 적극 고려해야 한다.
단순한 모델 크기 경쟁보다 데이터 큐레이션과 사후 학습(Post-training) 기법의 정교함이 모델의 개성과 성능을 결정짓는 핵심 차별화 요소가 된다.

언급된 리소스

문서DeepSeek V3 and the actual cost of training frontier AI models

문서The ATOM Project

DemoBuilding Olmo 3 Think (Talk)