YC Root AccessAI/ML

카르테시아(Cartesia) CEO 카란 고엘: 트랜스포머의 한계와 상태 공간 모델(SSM)의 미래

카르테시아의 CEO 카란 고엘이 트랜스포머 아키텍처의 한계를 지적하며, 상태 공간 모델(SSM)을 통한 압축과 추상화가 진정한 멀티모달 지능으로 가는 길임을 설명합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

현재의 트랜스포머 구조는 지능보다는 검색에 치중되어 있으며, 진정한 지능을 구현하기 위해서는 상태 공간 모델(SSM)과 같은 압축 중심의 아키텍처 혁신이 필요합니다. 또한 연구 중심 스타트업은 제품을 통해 기술의 진실성을 검증해야 합니다.

배경

NeurIPS 2025 컨퍼런스에서 Y Combinator의 안킷 굽타가 카르테시아의 창업자이자 CEO인 카란 고엘과 함께 차세대 AI 아키텍처에 대해 대담을 나눕니다.

대상 독자

AI 아키텍처 연구자, AI 스타트업 창업자, 멀티모달 기술에 관심 있는 개발자

의미 / 영향

카르테시아의 접근법은 트랜스포머 일변도의 AI 시장에서 SSM이라는 새로운 대안의 실효성을 입증하고 있다. 특히 음성 AI를 통해 확보한 신호 처리 레시피가 로보틱스와 비디오 분야로 전이될 경우, 현재보다 훨씬 효율적이고 인간에 가까운 멀티모달 에이전트의 등장이 가속화될 것으로 전망된다.

챕터별 상세

00:11

카르테시아 설립 배경과 아키텍처 연구

카르테시아는 스탠퍼드 대학교에서 아키텍처 연구를 수행하던 박사 과정 학생들이 설립한 기업이다. 지난 10년간 머신러닝 분야는 트랜스포머와 셀프 어텐션(Self-Attention)을 중심으로 발전해 왔으나, 연구팀은 모델이 확장되었을 때 남을 근본적인 한계에 주목했다. 인간의 지능처럼 효율적이고 멀티모달 상호작용이 가능한 지능을 구현하기 위해 새로운 아키텍처의 필요성을 절감하고 이를 상용화하기 위해 창업했다.

•스탠퍼드 박사 과정 중 아키텍처 연구를 기반으로 설립
•트랜스포머 이후의 차세대 AI 모델 구조 탐색
•인간 지능의 효율성을 모방하는 아키텍처 지향

02:18

트랜스포머의 한계: 검색기인가 지능인가

트랜스포머는 본질적으로 과거 데이터나 프롬프트의 원시 형태를 참조하는 검색 지향적 기계(Retrieval-oriented machine)에 가깝다. 모든 역사적 데이터나 컨텍스트가 원시 형태로 가용해야 하며, 특정 사실을 정확히 기억해내는 데는 뛰어나지만 정보를 압축하고 추상화하는 능력은 부족하다. 이는 인간이 세상을 이해하고 추상적인 개념을 형성하는 방식과는 차이가 있으며, 긴 컨텍스트를 처리할 때 효율성 문제를 야기한다.

•트랜스포머는 원시 데이터를 참조하는 검색 중심 구조
•정보의 압축과 추상화 능력의 부재가 주요 한계
•인간의 지능적 사고 방식과 아키텍처적 괴리 존재

트랜스포머의 어텐션 메커니즘은 입력된 모든 데이터를 직접 참조하기 때문에 데이터가 늘어날수록 계산량이 기하급수적으로 증가하는 특성이 있습니다.

04:21

지능의 핵심으로서의 압축과 SSM

지능의 근본적인 원리는 방대한 정보를 압축하여 추상적인 표현으로 변환하는 것이다. 상태 공간 모델(SSM)은 재귀적(Recurrent) 구조를 통해 정보를 압축하며, 이를 통해 더 높은 수준의 추상화를 가능하게 한다. SSM은 트랜스포머보다 모호한 세계 표현을 가지지만, 압축을 통해 지능의 핵심인 추상화를 구축한다. 최근에는 트랜스포머의 정확한 검색 능력과 SSM의 압축 능력을 결합한 하이브리드 모델들이 대안으로 부상하고 있다.

•압축은 지능을 구성하는 가장 근본적인 원시 기능
•SSM은 재귀적 구조를 통해 정보의 압축과 추상화 수행
•트랜스포머와 SSM의 장점을 결합한 하이브리드 아키텍처의 등장

상태 공간 모델(SSM)은 데이터를 고정된 크기의 '상태'로 압축하여 전달하므로, 긴 시퀀스에서도 일정한 계산 효율을 유지할 수 있는 아키텍처입니다.

07:13

음성 AI를 첫 제품으로 선택한 전략적 이유

카르테시아가 음성 AI를 첫 번째 제품군으로 선택한 이유는 이것이 신호(Signal)와 텍스트(Text)가 만나는 가장 명확한 문제이기 때문이다. 음성 데이터는 텍스트와 달리 연속적인 신호이며, 이를 텍스트와 정렬하고 학습하는 과정은 매우 복잡한 멀티모달 문제이다. 오디오-텍스트 모델을 올바르게 구축하는 레시피를 확보하면, 이는 로보틱스나 비디오 등 다른 모든 신호 기반 모달리티로 확장 가능한 기반이 된다.

•음성은 신호와 텍스트가 결합된 대표적인 멀티모달 데이터
•오디오 모델링 성공 시 타 모달리티로의 확장성 확보
•전체 AI 시장 중 실행 가능한 구체적 문제로 오디오 선택

08:25

진정한 멀티모달리티와 토큰화의 미래

진정한 멀티모달 지능은 단순히 이미지나 비디오를 보여주는 것을 넘어, 다양한 신호를 이산적인 기호(Symbol)와 매핑하는 능력을 의미한다. 현재의 AI는 사람이 수동으로 설계한 토큰화(Tokenization) 방식에 의존하고 있으나, 미래에는 모델이 원시 신호로부터 직접 계층적 추상화를 학습하는 엔드투엔드(End-to-End) 방식이 되어야 한다. 카르테시아는 토큰의 개념을 없애고 모델 내부에서 표현을 직접 학습하는 방향을 지향한다.

•멀티모달리티는 신호와 기호 간의 정교한 매핑 과정
•수동 토큰화에서 벗어나 엔드투엔드 표현 학습으로 진화 필요
•모델 내부에서 직접 추상화 계층을 학습하는 구조 지향

13:54

연구 중심 스타트업의 제품 규율과 진실성

연구 중심 스타트업에서 제품은 연구의 방향성을 잡아주고 진실성을 검증하는 시금석 역할을 한다. 학계의 연구는 다양한 비전의 탐색이 가능하지만, 스타트업은 단 하나의 비전에 집중하여 이를 끝까지 관철해야 한다. 고객은 아키텍처의 종류에 관심이 없으며 오직 제품의 성능에만 반응한다. 이러한 시장의 피드백은 연구자가 단순히 새로운 것을 만드는 데 그치지 않고, 실제로 더 나은 결과를 내기 위해 정직하게 실험하도록 강제한다.

•제품은 연구의 진실성과 성능을 검증하는 도구
•스타트업은 학계와 달리 단일 비전에 대한 강력한 집중 필요
•고객 피드백을 통한 연구의 지적 정직성 유지

실무 Takeaway

트랜스포머는 검색 중심적이며, 진정한 지능 구현을 위해서는 정보 압축과 추상화 능력이 뛰어난 SSM 같은 아키텍처가 필요하다.
멀티모달 지능의 핵심은 사람이 설계한 토큰화 없이 원시 신호에서 직접 표현을 학습하는 엔드투엔드 구조에 있다.
연구 중심 스타트업은 제품을 통해 연구의 실질적인 가치를 증명하고 지적 정직성을 유지해야 한다.
음성 AI는 신호와 텍스트의 결합이라는 측면에서 다른 모든 멀티모달 기술로 확장하기 위한 최적의 출발점이다.

언급된 리소스

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 10.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

카르테시아(Cartesia) CEO 카란 고엘: 트랜스포머의 한계와 상태 공간 모델(SSM)의 미래 | AI Trends