존 슐먼 인터뷰: ChatGPT의 탄생 비화와 강화학습의 미래

OpenAI 공동 창업자 존 슐먼이 ChatGPT 개발 과정의 기술적 통찰, 강화학습(RL)의 한계와 미래, 그리고 AI 연구 조직의 효율적인 관리 방식에 대해 심도 있게 논의합니다.

챕터별 상세

00:00

ChatGPT 제작 속도 단축과 기술적 병목

과거로 돌아가 ChatGPT를 다시 만든다면 2018년이나 2019년에도 충분히 가능했다는 견해를 밝힌다. 당시 기술 수준으로도 GPT-3급 모델과 소수의 유능한 인력, 그리고 현재 알고 있는 RLHF(인간 피드백 기반 강화학습) 방법론만 있다면 구현이 가능했다. 핵심 병목은 컴퓨팅 파워보다는 포스트 트레이닝(Post-training)의 레시피를 정확히 이해하고 데이터를 구성하는 방식에 있었다. 특히 미세 조정 데이터셋을 영리하게 구축한다면 훨씬 작은 모델로도 ChatGPT 수준의 대화 능력을 확보할 수 있었다.

09:22

AI 연구 관리자의 두 가지 유형

AI 연구 팀을 이끄는 관리자의 스타일을 '실무 밀착형(Hands-on)'과 '조력형(Hands-off)'으로 구분한다. 실무 밀착형 관리자는 직접 코드를 읽고 세부적인 기술 피드백을 주며 프로젝트의 방향을 정교하게 제어한다. 반면 조력형 관리자는 연구원의 커리어 조언이나 동기 부여에 집중하며 아이디어를 검증해 주는 샌드박스 역할을 수행한다. 탐색적 연구 단계에서는 조력형이 유리하지만, 명확한 목표를 실행하는 단계에서는 실무 밀착형 관리자의 기술적 통찰이 필수적이다.

11:56

OpenAI의 조직 문화와 영감의 원천

OpenAI가 벨 연구소(Bell Labs)와 같은 과거의 연구 기관에서 영감을 받았는지에 대해 논의한다. 실제로는 벨 연구소보다는 구글 브레인(Google Brain)이나 딥마인드(DeepMind)의 초기 운영 방식에서 더 많은 영향을 받았다. 또한 맨해튼 프로젝트나 아폴로 계획처럼 거대한 목표를 위해 엔지니어링과 과학을 결합하는 방식에 주목했다. 초기 OpenAI는 학술적인 소규모 연구 프로젝트와 대규모 엔지니어링 프로젝트가 혼합된 독특한 형태를 유지하며 성장했다.

16:54

언어 모델 강화학습에서 가치 함수의 부재

현재 LLM 강화학습에서 가치 함수(Value Function)가 널리 쓰이지 않는 기술적 이유를 분석한다. 전통적인 강화학습에서 가치 함수는 학습의 분산을 줄이는 데 핵심적이지만, 현재의 LLM 작업들은 보상이 즉각적이거나 타임 호라이즌이 짧아 가치 함수의 이득이 크지 않다. 수십만 토큰을 생성하는 긴 호흡의 작업에서는 가치 함수가 다시 중요해질 수 있지만, 현재의 RLHF 벤치마크에서는 그 필요성이 낮게 나타난다. 향후 더 복잡한 추론 작업이 도입됨에 따라 가치 함수의 역할이 재조명될 것으로 예측한다.

18:23

지속 학습과 모델 업데이트 전략

모델이 새로운 지식을 계속해서 습득하는 지속 학습(Continual Learning)의 해결 방안을 제시한다. 단기적으로는 컨텍스트 윈도우(Context Window)를 관리하는 방식이 효율적이지만, 장기적으로는 가중치를 직접 업데이트하는 방식이 승리할 것이다. LoRA와 같은 파라미터 효율적 미세 조정(PEFT) 기술이 지속 학습의 기반이 될 수 있다. 지식의 양이 방대해질수록 컨텍스트 주입보다는 모델 자체의 지식 베이스를 업데이트하는 것이 용량과 성능 면에서 유리하다.

24:05

생성자와 검증자의 공동 학습(Co-training)

생성 모델(Generator)과 검증 모델(Verifier)을 함께 학습시키는 구조가 AI의 자가 개선을 이끌 것이라고 설명한다. 검증 모델이 생성물의 논리적 오류를 잡아내고 이를 학습 신호로 생성 모델에 피드백하는 선순환 구조를 만든다. 이는 과거 GAN(생성적 적대 신경망)의 아이디어와 유사하며, 멀티 에이전트 게임이나 토론 게임(Debate Game) 형식을 통해 모델의 추론 능력을 극대화할 수 있다. 이러한 방식은 인간의 직접적인 피드백 없이도 모델이 스스로 성능을 높이는 '플라이휠' 역할을 한다.

27:06

존 슐먼의 개인적인 AI 활용법

연구 과정에서 Cursor, Claude, GPT-5 Pro(내부 모델) 등을 적극적으로 활용한다고 밝힌다. 특히 논문 검색(Literature Search)과 아이디어 구체화 단계에서 AI의 도움을 많이 받는다. 모호한 아이디어를 한두 문장으로 입력하면 AI가 이를 상세하게 확장해 주거나 관련 선행 연구를 찾아주는 방식으로 작업 속도를 높인다. 하지만 연구용 코드 작성 시에는 AI가 생성한 코드를 맹목적으로 믿기보다 모든 라인을 직접 이해하고 통제하는 것이 중요하다고 강조한다.

44:46

AGI 타임라인과 엔지니어링의 한계

AGI(인공 일반 지능) 도달 시점에 대한 예측과 엔지니어링의 현실을 논의한다. 일반적으로 엔지니어들은 프로젝트 완료 시간을 실제보다 2~3배 짧게 예측하는 경향이 있으며, AGI 역시 예상보다 더 많은 시간이 걸릴 수 있다. 자율주행 기술이 완전 자동화까지 예상보다 오랜 시간이 걸린 것과 유사한 경로를 밟을 수 있다. 다만 AI가 스스로 AI 개발을 가속화하는 긍정적 피드백 루프가 발생한다면 기존의 예측을 완전히 뒤엎는 급격한 발전이 가능할 수도 있다는 변수를 언급한다.

용어 해설

인간 피드백 기반 강화학습(RLHF): — 인간의 선호도를 보상 모델로 학습시켜 언어 모델이 인간의 의도에 부합하도록 미세 조정하는 기법이다. ChatGPT의 대화 능력을 완성한 핵심 기술로, 단순한 텍스트 예측을 넘어 유용하고 안전한 답변을 생성하게 만든다.
가치 함수(Value Function): — 강화학습에서 특정 상태나 행동이 미래에 가져올 기대 보상의 총합을 예측하는 함수이다. 에이전트가 어떤 행동이 장기적으로 유리한지 판단하는 기준이 되며, 학습의 분산을 줄이는 데 중요한 역할을 한다.
지속 학습(Continual Learning): — 모델이 새로운 데이터를 학습할 때 이전에 배운 지식을 잊어버리지 않고 지식을 누적해 나가는 학습 방식이다. AI가 실시간으로 변화하는 세상에 적응하고 개인화된 정보를 유지하기 위해 필수적인 연구 분야이다.
공동 학습(Co-training): — 두 개 이상의 모델이 서로의 출력을 학습 데이터로 활용하거나 서로를 검증하며 함께 성능을 높이는 기법이다. 생성 모델과 검증 모델을 동시에 학습시켜 생성물의 품질을 비약적으로 높이는 데 사용된다.
일반화(Generalization): — 학습 데이터에 포함되지 않은 새로운 상황이나 데이터에 대해서도 모델이 정확한 판단을 내리는 능력이다. AI가 특정 예시를 외우는 것이 아니라 근본적인 원리를 이해했는지를 보여주는 척도이다.

언급된 리소스

API DocsTinker

문서John Schulman's Blog (How to do effective research)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 18.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.