2025년 AI 회고: 우리가 맞힌 예측과 2026년을 위한 통찰

핵심 요약

2025년 AI 분야는 단순한 모델 크기 경쟁을 넘어 실질적인 배포와 운영 효율성의 시대로 접어들었다. 컴퓨팅 자원보다 전력 수급이 새로운 병목 현상으로 떠올랐으며, 기업들은 비용 절감과 통제권 확보를 위해 오픈 소스 모델과 전용 추론 하드웨어를 적극 채택했다. 에이전트 AI는 기술적 진보에도 불구하고 특정 워크플로우 내에서의 보조적 역할에 집중하는 경향을 보였다. 2026년에는 모델의 크기보다 실제 환경에서의 실행 효율성이 승패를 가를 것으로 전망된다.

배경

LLM 추론 및 학습의 차이, 오픈 소스 모델 생태계 이해, AI 인프라 및 하드웨어 기본 지식

대상 독자

AI 인프라 설계자, 기업 CTO, LLM 서비스 운영 개발자

의미 / 영향

AI 산업의 중심축이 연구실의 벤치마크 경쟁에서 실제 현장의 운영 효율성과 비용 최적화로 완전히 이동했음을 의미한다. 이는 하드웨어 시장에서 엔비디아 독주 체제에 도전하는 맞춤형 추론 칩의 부상을 가속화할 것이다.

섹션별 상세

추론(Inference)이 AI 비용과 복잡성의 중심이 되었다. 2025년 기업 AI의 주요 과제는 모델 학습이 아닌 실제 배포 환경에서의 추론 효율성이었으며, 모든 프롬프트와 의사결정 작업이 추론 워크로드로 흡수되었다. 이에 따라 인프라 최적화의 기준이 피크 FLOPs에서 속도, 메모리, 지연 시간 및 에너지 효율로 이동했다.

전력(Power)이 컴퓨팅 성능을 대신해 새로운 병목 자원으로 부상했다. 칩 공급보다 전력 수급과 그리드 용량이 대규모 AI 클러스터 구축의 결정적 요인이 되었으며, '줄당 지능(Intelligence per joule)'이나 '와트당 토큰(Tokens per watt)'과 같은 지표가 인프라 계획의 핵심 KPI가 되었다. 전력 효율이 낮은 하드웨어는 확장에 한계를 드러냈다.

오픈 웨이트(Open-weight) 모델이 기업 AI 스택의 기본 구성 요소로 자리 잡았다. Llama나 DeepSeek 같은 모델들은 비용 절감뿐만 아니라 데이터 통제권 확보와 규제 대응을 위해 선택되었으며, 기업들은 독점 API의 제약에서 벗어나 자체 데이터로 미세 조정한 모델을 선호하기 시작했다. 이는 국가 차원의 소버린 AI(Sovereign AI) 구축으로도 이어졌다.

하드웨어 스택이 추론 네이티브(Inference-native) 구조로 재편되기 시작했다. 기존 GPU 중심의 인프라는 대규모 추론 워크로드에서 전력 및 냉각 효율성 문제에 직면했으며, SambaNova의 RDU와 같은 맞춤형 실리콘이 고처리량 및 긴 컨텍스트 처리를 위해 도입되었다. 2026년에는 GPU 우선이 아닌 추론 최적화 하드웨어가 인프라의 주류가 될 것으로 보인다.

에이전트 AI(Agentic AI)는 자율성보다는 구조화된 워크플로우 내의 통합에 집중했다. 완전 자율형 'AI 직원'에 대한 기대와 달리, 실제 성공 사례는 금융 워크플로우나 고객 지원 등 좁게 정의된 작업에서 인간의 감독 하에 모듈식으로 설계된 시스템에서 나타났다. 에이전트는 독립적인 대체재가 아닌 관찰 가능한 프로세스의 일부로 기능할 때 가장 효과적임이 증명되었다.

이미지 분석

Infographic
SambaNova가 연초에 제시했던 9가지 예측(에너지 장벽, 추론 비중 확대, 오픈 모델 기본화 등)에 대해 각각의 정확도 점수와 실제 벌어진 현상을 대조하여 보여준다. 전체 평균 8.4/10의 정확도를 기록했음을 명시하며 기사의 핵심 근거 자료로 활용된다.
2025년 AI 예측에 대한 정확도 점수표와 실제 결과 요약.

실무 Takeaway

2026년에는 새로운 모델을 학습시키는 것보다 기존 오픈 소스 모델을 활용해 추론 효율성을 극대화하는 기업이 경쟁 우위를 점할 것이다.
인프라 설계 시 단순 성능 점수보다 실제 운영 환경에서의 '와트당 성능'과 전력 가용성을 최우선 순위로 고려해야 한다.
에이전트 AI 도입 시 마법 같은 자율성을 기대하기보다, 기존의 데이터 및 프로세스 IP를 보호할 수 있는 구조화된 워크플로우 설계에 집중해야 한다.