Shaw TalebiAI/ML

AI의 지난 3년 요약: 챗봇에서 에이전트까지

2022년 ChatGPT 출시부터 최신 추론 모델과 AI 에이전트까지, 지난 3년간의 핵심 기술적 진화와 미래 방향성을 심도 있게 분석합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI는 추론(Reasoning)과 도구 사용(Tool Use) 능력을 갖춘 자율 에이전트로 진화 중이며, 테스트 시간 연산(Test-time compute)이 새로운 성능 향상의 핵심 동력이 되었다.

배경

2022년 말 ChatGPT의 등장 이후 AI 분야는 전례 없는 속도로 발전해 왔으며, 단순한 텍스트 생성을 넘어 자율적인 문제 해결 단계로 진입했다.

대상 독자

AI 기술의 흐름을 체계적으로 정리하고 실무 적용 방향을 고민하는 개발자 및 기술 기획자

의미 / 영향

AI는 이제 단순한 대화 상대를 넘어 코딩, 연구 등 전문 영역에서 자율적으로 과업을 수행하는 에이전트로 진화했다. 기업들은 모델 자체의 성능뿐만 아니라 에이전트가 외부 도구와 데이터를 얼마나 유기적으로 연결하여 실질적인 워크플로를 자동화할 수 있는지에 집중해야 한다. 특히 코딩 에이전트의 발전은 소프트웨어 개발 생산성을 근본적으로 변화시키고 있다.

챕터별 상세

00:17

ChatGPT의 등장과 3단계 학습 프로세스

2022년 11월 ChatGPT 출시로 AI 대중화 시대가 시작되었다. 현대적 LLM 학습은 Pre-training, Supervised Fine-tuning, RLHF의 3단계로 구성된다. Pre-training 단계의 모델은 단순한 문서 완성기(Document Completer)에 불과하지만, RLHF를 통해 인간의 선호도에 부합하고 안전한 답변을 생성하는 조력자로 변모한다. 이 과정은 현대 AI 모델 구축의 표준 청사진이 되었다.

•Pre-training은 인터넷의 방대한 데이터를 통해 언어의 구조를 학습하는 단계이다
•RLHF는 인간의 피드백을 보상 모델로 변환하여 모델의 행동을 정렬한다
•ChatGPT는 출시 한 달 만에 사용자 1억 명을 돌파하며 AI 패러다임을 바꿨다

04:53

LLM 경쟁의 서막과 스케일링 법칙

GPT-4, Llama, Claude, Bard 등 주요 모델들이 출시되며 본격적인 LLM 경쟁이 시작되었다. OpenAI 연구진이 발견한 스케일링 법칙(Scaling Laws)에 따라 파라미터 수, 데이터 양, 연산량을 늘릴수록 모델 성능이 로그 스케일로 향상된다는 점이 확인되었다. 이 법칙은 기업들이 GPU 인프라와 데이터 확보에 막대한 투자를 하게 만든 결정적인 기술적 근거가 되었다. 결과적으로 NVIDIA는 업계에서 가장 가치 있는 기업 중 하나로 성장했다.

•Scaling Laws는 AI 투자에 대한 예측 가능한 성능 향상 경로를 제시했다
•Meta의 Llama는 오픈 소스 생태계의 LLM 경쟁을 가속화했다
•데이터와 연산 자원의 규모가 모델 성능의 핵심 지표로 자리 잡았다

08:05

할루시네이션 극복을 위한 RAG와 스캐폴딩

LLM의 고질적인 문제인 할루시네이션을 해결하기 위해 모델 외부 구조인 스캐폴딩(Scaffolding)이 도입되었다. 대표적인 기법인 RAG(검색 증강 생성)는 사용자 질문과 관련된 최신 문서를 벡터 데이터베이스에서 찾아 컨텍스트로 주입한다. 이를 통해 모델은 학습 데이터에 없는 최신 정보나 특정 도메인 지식에 기반한 정확한 답변을 생성한다. 이 시기에 LangChain과 LlamaIndex 같은 프레임워크가 개발자들 사이에서 필수 도구로 부상했다.

•RAG는 모델을 재학습시키지 않고도 외부 지식을 활용하게 한다
•Prompt Engineering 기법인 CoT는 모델의 논리적 추론 능력을 보완한다
•스캐폴딩은 LLM을 실무에서 사용 가능한 수준으로 끌어올린 핵심 아키텍처이다

text

Think step by step

모델의 추론 능력을 향상시키기 위해 사용되는 가장 기본적인 Chain-of-Thought 프롬프트 예시

12:16

컨텍스트 윈도우의 확장과 멀티모달의 진화

초기 모델의 짧은 컨텍스트 윈도우(8k~32k)가 128k 이상으로 확장되며 수백 페이지의 문서를 한 번에 처리할 수 있게 되었다. 또한 텍스트뿐만 아니라 이미지, 오디오를 동시에 처리하는 멀티모달 모델(GPT-4V, GPT-4o)이 등장했다. 특히 네이티브 멀티모달 설계는 별도의 어댑터 없이 여러 모달리티를 통합 처리하여 추론 속도를 높이고 비용을 절감하는 효과를 가져왔다. 이제 대부분의 상용 모델은 텍스트와 이미지를 기본적으로 지원한다.

•긴 컨텍스트 윈도우는 RAG의 필요성을 줄이는 것이 아니라 보완하는 역할을 한다
•네이티브 멀티모달 모델은 추론 효율성과 정확도 면에서 기존 방식보다 우수하다
•Gemini 1.5 Pro는 100만 토큰 이상의 컨텍스트 윈도우를 선보였다

15:15

추론 모델과 테스트 시간 연산의 패러다임

OpenAI o1 모델의 등장으로 '생각하는 AI'인 추론 모델 시대가 열렸다. 이는 학습 단계의 연산뿐만 아니라 답변 생성 시 더 많은 토큰을 생성하며 고민하는 '테스트 시간 연산(Test-time compute)'이 성능을 높인다는 새로운 패러다임을 제시했다. 모델은 답변 전 내부적인 CoT 과정을 거치며 스스로 오류를 수정하고 최적의 경로를 탐색한다. 이 방식은 특히 수학, 코딩, 과학적 추론 분야에서 기존 모델을 압도하는 성능을 보여주었다.

•테스트 시간 연산은 추론 시 토큰 생성을 늘려 성능을 향상시킨다
•o1 모델은 복잡한 문제 해결을 위해 답변 전 '생각하는 시간'을 갖는다
•추론 모델은 정답이 명확한 STEM 분야에서 비약적인 발전을 이루었다

18:32

DeepSeek-R1과 강화학습의 새로운 지평

DeepSeek-R1은 o1의 추론 능력을 오픈 소스 수준에서 재현하며 강화학습(RL)의 중요성을 입증했다. 인간의 주관적 선호도에 의존하는 RLHF와 달리, 수학이나 코딩처럼 정답이 명확한 작업에서 모델이 스스로 시행착오를 겪으며 학습하는 방식이 적용되었다. 학습이 진행될수록 모델의 추론 과정(CoT) 길이가 자연스럽게 늘어나며 성능이 향상되는 현상이 관찰되었다. 이는 AI 학습의 병목이었던 인간 라벨링의 한계를 극복할 수 있는 가능성을 보여주었다.

•DeepSeek-R1은 순수 강화학습만으로도 고도의 추론 능력을 확보할 수 있음을 증명했다
•학습 단계가 진행될수록 모델의 CoT 길이가 길어지며 정확도가 상승했다
•정답이 명확한 태스크(Math, Code)는 AI 학습의 새로운 데이터 원천이 되었다

23:00

도구 사용(Tool Calling)과 MCP 프로토콜

LLM이 외부 도구를 호출하는 능력이 정교해지며 실질적인 업무 수행이 가능해졌다. 구조화된 출력(JSON) 지원과 추론 모델의 결합으로 모델은 복잡한 작업 계획을 수립하고 적절한 도구를 선택하여 실행한다. Anthropic이 발표한 MCP(Model Context Protocol)는 다양한 앱과 데이터 소스를 AI 모델에 연결하는 표준 인터페이스 역할을 한다. 이를 통해 개발자는 특정 모델에 종속되지 않고 다양한 도구를 유기적으로 연결한 에이전트 시스템을 구축할 수 있다.

•구조화된 출력은 AI의 결과를 컴퓨터가 실행 가능한 코드로 변환하는 핵심 기술이다
•MCP는 AI 앱과 데이터 소스 간의 연결을 표준화하는 'USB-C' 역할을 한다
•추론 모델은 도구 사용 시 발생할 수 있는 복잡한 계획 수립 오류를 줄여준다

26:10

AI 에이전트와 코딩 에이전트의 시대

2025년은 AI 에이전트가 실무에 본격 투입되는 원년이다. 특히 Claude Code와 같은 코딩 에이전트는 코드베이스를 직접 수정하고 실행하며 실질적인 경제적 가치를 창출하고 있다. 에이전트는 단일 모델을 넘어 여러 에이전트가 병렬로 작동하거나 서브 에이전트를 생성하여 복잡한 과업을 분담하는 방향으로 확장되고 있다. 이러한 시스템은 컨텍스트 윈도우 관리와 병렬 처리를 통해 대규모 소프트웨어 개발 프로젝트를 자율적으로 수행한다.

•코딩 에이전트는 현재 AI 기술 중 가장 높은 경제적 가치를 창출하는 분야이다
•멀티 에이전트 시스템은 복잡한 작업을 계획, 코딩, 검토 단계로 나누어 처리한다
•서브 에이전트 활용은 메인 컨텍스트 윈도우를 보존하면서 작업을 확장하는 전략이다

실무 Takeaway

단순한 모델 크기 경쟁을 넘어, 추론 시 연산량을 늘려 성능을 높이는 테스트 시간 연산(Test-time compute) 전략이 현대 AI의 핵심이다
RAG는 긴 컨텍스트 윈도우 시대에도 여전히 비용 효율적이고 정확한 정보 제공을 위한 필수적인 스캐폴딩 기술이다
자율 에이전트 구축을 위해서는 모델의 추론 능력뿐만 아니라 MCP 같은 표준 프로토콜을 통한 도구 연결성이 중요하다
수학이나 코딩처럼 정답이 명확한 도메인에서의 강화학습은 인간 피드백의 한계를 넘어서는 모델 성능 향상을 가능케 한다

언급된 리소스

문서Model Context Protocol (MCP)

논문DeepSeek-R1 Paper

문서Learning to Reason with LLMs (OpenAI o1)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 08.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

AI의 지난 3년 요약: 챗봇에서 에이전트까지 | AI Trends