YC Root AccessAI/ML

Poetiq: 재귀적 자기 개선을 통한 ARC-AGI 벤치마크 돌파

전직 DeepMind 연구원들이 설립한 Poetiq이 Gemini 3 위에서 재귀적 자기 개선 시스템을 구축하여 ARC-AGI 벤치마크 성능을 획기적으로 높인 방법과 비전을 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Poetiq은 모델의 가중치에 접근하지 않고도 프롬프트와 시스템 설계를 자동화하는 재귀적 자기 개선 루프를 통해 Gemini 3의 ARC-AGI 성능을 54%까지 끌어올렸다. 이는 AGI로 가는 중요한 경로 중 하나이며, 프롬프트 엔지니어링의 자동화가 강력한 레버리지가 될 수 있음을 시사한다.

배경

NeurIPS 컨퍼런스 현장에서 Y Combinator의 Francois Chaubard가 Poetiq의 공동 창업자 Ian Fischer를 만나 인터뷰를 진행했다.

대상 독자

AI 연구원, LLM 애플리케이션 개발자, AGI에 관심 있는 기술 전문가

의미 / 영향

Poetiq의 성과는 거대 모델의 가중치를 직접 학습시키지 않고도 상위 시스템 설계만으로 지능의 한계를 돌파할 수 있음을 보여준다. 이는 소규모 팀도 강력한 기반 모델을 활용해 특정 도메인이나 벤치마크에서 빅테크를 능가하는 성능을 낼 수 있는 가능성을 시사한다. 향후 프롬프트 엔지니어링의 자동화가 보편화되면서 AI 에이전트 개발 방식이 수동 설계에서 자동 최적화 중심으로 전환될 것이다.

챕터별 상세

00:11

Poetiq 소개 및 ARC-AGI 벤치마크 성과

Poetiq은 전직 DeepMind 연구원들이 설립한 스타트업으로, Gemini 3 기반 시스템으로 ARC-AGI 2 프라이빗 테스트 세트에서 54%의 점수를 기록했다. 이는 기존 SOTA 대비 상당한 향상이며, Gemini 3 단독 성능인 약 31%나 Deep Think 버전의 45%보다도 높은 수치이다. 시스템은 모델 가중치 수정 없이 상위 레이어의 최적화만으로 이 결과를 달성했다.

•ARC-AGI 2 프라이빗 테스트 세트에서 54% 달성
•Gemini 3 단독 성능 대비 약 23% 포인트 성능 향상
•모델 가중치 접근 없이 시스템 레벨 최적화만으로 구현

ARC-AGI는 인공지능의 일반 지능과 추론 능력을 측정하기 위해 설계된 매우 난이도 높은 벤치마크이다.

02:00

재귀적 자기 개선의 메커니즘과 구현 방식

재귀적 자기 개선은 AI가 스스로를 더 똑똑하게 만드는 루프를 의미하며, Poetiq은 이를 프롬프트와 시스템 구조 최적화에 적용했다. 모델 가중치에 접근할 수 없는 환경에서 시스템은 프롬프트를 변경하고, 앙상블 구조를 조정하며, 투표 메커니즘을 통해 최적의 답을 찾아낸다. AI가 다른 시스템의 성능을 개선하는 과정을 반복함으로써 전체 시스템의 지능을 높이는 방식이다.

•프롬프트와 시스템 설계를 최적화하는 자동화 루프 구축
•앙상블 모델과 투표 메커니즘을 통한 결과 정제
•AI가 다른 시스템을 개선하도록 설계된 재귀적 구조

Recursive Self-Improvement는 AI가 자신의 코드를 수정하거나 설계를 개선하여 지능을 증폭시키는 개념이다.

05:30

Gemini 3의 역할과 시각적 추론 능력

Gemini 3는 시각적 문제 해결을 위한 코드 작성 능력이 이전 모델들보다 월등히 뛰어나 Poetiq 시스템의 핵심 기반이 되었다. Poetiq은 처음에는 ARC-AGI 1에 집중했으나 Gemini 3 출시 이후 ARC-AGI 2에서도 놀라운 성능 향상을 확인했다. Anthropic의 Claude 3.5 Opus와 비교했을 때도 Gemini 3 기반 시스템이 비용 효율성과 성능 면에서 경쟁력이 있음을 입증했다.

•Gemini 3의 뛰어난 시각적 문제 해결용 코드 생성 능력 활용
•ARC-AGI 1에서 95%의 높은 정확도 기록
•타사 최신 모델 대비 우수한 비용 대비 성능 확인

ARC-AGI 문제는 주로 시각적 패턴을 코드로 변환하여 해결하는 방식을 취한다.

07:14

AGI를 향한 경로와 Poetiq의 미래 비전

재귀적 자기 개선은 AGI에 도달하기 위한 가장 유망한 경로 중 하나로 평가되며 Poetiq은 이 과정을 자동화하는 파워 툴을 지향한다. 현재 6명의 소규모 팀으로 운영되고 있음에도 불구하고 SOTA 기록을 경신했으며, 향후 더 많은 벤치마크에서 성능을 증명할 계획이다. 연구 단계를 넘어 실제 비즈니스 문제를 해결하는 고객용 솔루션으로 확장하여 시장에 실질적인 변화를 주고자 한다.

•재귀적 자기 개선을 AGI 도달의 핵심 경로로 설정
•프롬프트 엔지니어링 및 에이전트 구축 과정의 완전 자동화 목표
•소규모 연구 중심 팀에서 실질적 비즈니스 솔루션 기업으로 확장

AGI는 인간 수준의 지능을 가진 인공지능을 의미하며, 추론과 학습 능력이 핵심이다.

실무 Takeaway

모델 가중치에 접근할 수 없는 블랙박스 환경에서도 시스템 레벨의 재귀적 최적화를 통해 성능을 획기적으로 높일 수 있다
Gemini 3와 같이 코드 생성 능력이 뛰어난 모델은 시각적 추론 문제 해결에서 강력한 기반 모델이 된다
프롬프트 엔지니어링 과정을 자동화하는 것은 AI 에이전트의 성능을 개선하는 가장 효율적인 방법 중 하나이다

언급된 리소스

DemoARC-AGI Benchmark

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 30.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Poetiq: 재귀적 자기 개선을 통한 ARC-AGI 벤치마크 돌파 | AI Trends