데미스 허사비스가 제안하는 새로운 AGI 테스트와 인공 일반 지능의 미래 | AI Trends

The AI GridAI/ML

데미스 허사비스가 제안하는 새로운 AGI 테스트와 인공 일반 지능의 미래

구글 딥마인드의 데미스 허사비스가 제안한 지식 컷오프 기반의 새로운 AGI 테스트와 현재 벤치마크의 한계 및 멀티모달 시스템의 필요성을 논의한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AGI는 단순한 지식 검색이 아닌 제1원리로부터 새로운 지식을 창출하는 능력을 갖춰야 하며, 이를 위해 멀티모달과 지속적 학습이 결합된 시스템이 필요하다.

배경

인공 일반 지능(AGI)의 정의와 도달 시점에 대한 논쟁이 가속화되는 가운데, 구글 딥마인드의 수장 데미스 허사비스가 기존 벤치마크를 넘어서는 새로운 평가 방식을 제안했다.

대상 독자

AI 기술 트렌드와 AGI의 철학적, 기술적 정의에 관심 있는 개발자 및 연구자

의미 / 영향

단순한 모델 크기 확장 경쟁에서 벗어나 추론 아키텍처와 메모리 효율성을 개선하는 방향으로 연구 초점이 이동할 것이다. 벤치마크 점수 자체보다 모델이 정답에 도달하는 과정의 논리성을 검증하는 도구들이 중요해짐에 따라, 로보틱스와 결합된 멀티모달 AI 연구가 가속화될 것으로 보인다.

챕터별 상세

00:00

허사비스의 새로운 AGI 테스트 제안

데미스 허사비스는 지식 컷오프를 활용한 혁신적인 AGI 테스트 방식을 제안했다. 예를 들어 1911년까지의 데이터만 학습시킨 모델이 1915년에 발표된 아인슈타인의 일반 상대성 이론을 스스로 도출할 수 있는지 확인하는 방식이다. 이는 모델이 기존 지식의 패턴을 매칭하는 수준을 넘어 순수한 과학적 추론을 통해 새로운 지식을 창조할 수 있는지 검증하기 위함이다. 진정한 AGI라면 학습 데이터에 없는 결론을 논리적 원리만으로 이끌어낼 수 있어야 한다는 것이 핵심이다.

02:48

AGI의 정의와 현재 모델의 기술적 격차

허사비스는 AGI를 인간이 가진 모든 인지 능력을 발휘할 수 있는 유연한 시스템으로 정의한다. 현재의 AI 시스템은 수학 올림피아드 문제를 풀 정도로 특정 영역에서 뛰어나지만, 창의성, 지속적 학습, 장기 계획 능력 등에서는 여전히 한계를 보인다. 특히 문제의 표현 방식을 조금만 바꿔도 성능이 급락하는 지능의 불일치 현상이 나타난다. 인간의 뇌 아키텍처가 가진 유연성을 모델이 아직 따라가지 못하고 있는 상태이다.

인간의 뇌는 적은 데이터로도 일반화 능력이 뛰어나지만, 현재의 LLM은 방대한 데이터의 통계적 패턴에 의존하는 경향이 크다.

05:26

AGI 달성을 위해 필요한 3가지 돌파구

AGI에 도달하기 위해서는 단순히 모델 크기를 키우는 스케일링(Scaling) 외에 최소 2~3개의 근본적인 기술적 혁신이 필요하다. 첫째는 새로운 정보를 실시간으로 습득하는 지속적 학습(Continual Learning)이며, 둘째는 더 효율적인 메모리 시스템 구축이다. 셋째는 뇌처럼 중요한 정보만 선택적으로 저장하고 관리하는 효율적인 컨텍스트 윈도우 기술이다. 허사비스는 대규모 파운데이션 모델이 핵심 구성 요소가 될 것이라는 점에는 확신을 보였다.

07:31

얀 르쿤의 비판과 ARC-AGI 벤치마크의 부상

얀 르쿤은 현재의 LLM 방식이 AGI로 가는 막다른 길이라고 주장하며 데이터셋에 없는 새로운 문제를 해결하는 능력이 부족함을 지적한다. 이에 대한 대안으로 ARC-AGI 리더보드가 주목받고 있으며, 최근 Gemini 3 Deep Think 등이 80% 이상의 높은 점수를 기록했다. 하지만 이 점수가 진정한 추론의 결과인지, 아니면 벤치마크를 우회하는 지름길을 찾은 것인지에 대한 논란이 지속되고 있다. 얀 르쿤은 AI가 인간처럼 세계 모델을 구축해야 한다고 강조한다.

11:04

벤치마크의 함정과 영리한 한스 효과

멜라니 미첼 연구원은 ARC-AGI 테스트에서 모델들이 데이터의 상관관계나 지름길(Shortcuts)을 이용해 정답을 맞힐 수 있음을 경고한다. 모델이 정답을 맞혀도 그 이유를 정확히 설명하는 비율은 인간보다 현저히 낮다. 이는 과거 계산을 하는 것처럼 보였으나 사실 질문자의 미세한 표정 변화를 읽었던 말 '한스'의 사례와 유사하다. 즉, 모델이 본질적인 논리 구조를 이해한 것이 아니라 통계적 편향을 이용했을 가능성이 크다는 분석이다.

영리한 한스(Clever Hans) 효과는 피험자가 실제 능력이 아니라 실험자의 무의식적인 신호를 읽고 반응하는 현상을 뜻한다.

12:39

멀티모달 AGI와 물리적 에이전트의 미래

진정한 AGI는 텍스트를 넘어 시각, 청각, 촉각을 통합한 멀티모달 시스템이 될 것으로 전망된다. 피규어 로보틱스(Figure Robotics)와 같은 기업들은 물리적 세계를 탐색하고 예측하는 모델이 순수 언어 모델보다 먼저 AGI에 도달할 수 있다고 주장한다. 요슈아 벤지오는 AGI를 단일 시점이 아닌 능력의 스펙트럼으로 보아야 하며, 각 기술적 단계마다 유익성과 위험성을 동시에 평가해야 한다고 강조한다. 결국 AGI는 세상을 직접 보고 듣고 상호작용하는 형태로 완성될 것이다.

실무 Takeaway

AGI 평가를 위해 기존 지식의 재진술이 아닌, 제한된 과거 데이터로부터 새로운 과학적 원리를 발견하는 지식 컷오프 테스트를 도입해야 한다.
현재 LLM은 특정 벤치마크 점수는 높지만 문제 표현 방식의 변화에 취약하므로, 통계적 패턴 매칭과 진정한 추론을 구분하는 엄격한 검증이 필요하다.
진정한 AGI는 텍스트 기반 추론을 넘어 물리적 세계와 상호작용하며 시공간적 인과관계를 이해하는 멀티모달 에이전트 형태로 진화할 것이다.

언급된 리소스

DemoARC-AGI Leaderboard

문서Melanie Mitchell's Research on ARC

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 02.수집 2026. 03. 02.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.