핵심 요약
현재의 트랜스포머 구조는 지능보다는 검색에 치중되어 있으며, 진정한 지능을 구현하기 위해서는 상태 공간 모델(SSM)과 같은 압축 중심의 아키텍처 혁신이 필요합니다. 또한 연구 중심 스타트업은 제품을 통해 기술의 진실성을 검증해야 합니다.
배경
NeurIPS 2025 컨퍼런스에서 Y Combinator의 안킷 굽타가 카르테시아의 창업자이자 CEO인 카란 고엘과 함께 차세대 AI 아키텍처에 대해 대담을 나눕니다.
대상 독자
AI 아키텍처 연구자, AI 스타트업 창업자, 멀티모달 기술에 관심 있는 개발자
의미 / 영향
카르테시아의 접근법은 트랜스포머 일변도의 AI 시장에서 SSM이라는 새로운 대안의 실효성을 입증하고 있다. 특히 음성 AI를 통해 확보한 신호 처리 레시피가 로보틱스와 비디오 분야로 전이될 경우, 현재보다 훨씬 효율적이고 인간에 가까운 멀티모달 에이전트의 등장이 가속화될 것으로 전망된다.
챕터별 상세
카르테시아 설립 배경과 아키텍처 연구
- •스탠퍼드 박사 과정 중 아키텍처 연구를 기반으로 설립
- •트랜스포머 이후의 차세대 AI 모델 구조 탐색
- •인간 지능의 효율성을 모방하는 아키텍처 지향
트랜스포머의 한계: 검색기인가 지능인가
- •트랜스포머는 원시 데이터를 참조하는 검색 중심 구조
- •정보의 압축과 추상화 능력의 부재가 주요 한계
- •인간의 지능적 사고 방식과 아키텍처적 괴리 존재
트랜스포머의 어텐션 메커니즘은 입력된 모든 데이터를 직접 참조하기 때문에 데이터가 늘어날수록 계산량이 기하급수적으로 증가하는 특성이 있습니다.
지능의 핵심으로서의 압축과 SSM
- •압축은 지능을 구성하는 가장 근본적인 원시 기능
- •SSM은 재귀적 구조를 통해 정보의 압축과 추상화 수행
- •트랜스포머와 SSM의 장점을 결합한 하이브리드 아키텍처의 등장
상태 공간 모델(SSM)은 데이터를 고정된 크기의 '상태'로 압축하여 전달하므로, 긴 시퀀스에서도 일정한 계산 효율을 유지할 수 있는 아키텍처입니다.
음성 AI를 첫 제품으로 선택한 전략적 이유
- •음성은 신호와 텍스트가 결합된 대표적인 멀티모달 데이터
- •오디오 모델링 성공 시 타 모달리티로의 확장성 확보
- •전체 AI 시장 중 실행 가능한 구체적 문제로 오디오 선택
진정한 멀티모달리티와 토큰화의 미래
- •멀티모달리티는 신호와 기호 간의 정교한 매핑 과정
- •수동 토큰화에서 벗어나 엔드투엔드 표현 학습으로 진화 필요
- •모델 내부에서 직접 추상화 계층을 학습하는 구조 지향
연구 중심 스타트업의 제품 규율과 진실성
- •제품은 연구의 진실성과 성능을 검증하는 도구
- •스타트업은 학계와 달리 단일 비전에 대한 강력한 집중 필요
- •고객 피드백을 통한 연구의 지적 정직성 유지
실무 Takeaway
- 트랜스포머는 검색 중심적이며, 진정한 지능 구현을 위해서는 정보 압축과 추상화 능력이 뛰어난 SSM 같은 아키텍처가 필요하다.
- 멀티모달 지능의 핵심은 사람이 설계한 토큰화 없이 원시 신호에서 직접 표현을 학습하는 엔드투엔드 구조에 있다.
- 연구 중심 스타트업은 제품을 통해 연구의 실질적인 가치를 증명하고 지적 정직성을 유지해야 한다.
- 음성 AI는 신호와 텍스트의 결합이라는 측면에서 다른 모든 멀티모달 기술로 확장하기 위한 최적의 출발점이다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.