Notion의 토큰 타운: 5번의 재구축, 100개 이상의 도구, MCP vs CLI 그리고 소프트웨어 팩토리의 미래

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Notion은 단순한 생산성 도구를 넘어 에이전트 네이티브 시스템으로 진화하기 위해 커스텀 에이전트 기능을 출시했다. 초기 모델의 한계와 도구 호출 표준 부재로 인해 시스템을 5번이나 재구축하며, 현재는 100개 이상의 도구를 점진적으로 노출하는 정교한 에이전트 하네스를 갖췄다. 특히 소프트웨어 개발 전 과정을 자동화하는 '소프트웨어 팩토리' 비전을 제시하며, 에이전트가 스스로 코드를 수정하고 검증하는 구조를 지향한다. 내부 테스트 결과 에이전트 기반의 워크플로우가 팀의 운영 방식을 근본적으로 변화시켰음이 확인됐다.

배경

LLM 에이전트 및 도구 호출(Tool Calling) 개념, RAG(검색 증강 생성) 아키텍처에 대한 이해, MCP(Model Context Protocol) 기본 지식

대상 독자

AI 에이전트를 프로덕션에 배포하려는 엔지니어 및 제품 관리자

의미 / 영향

이 아티클은 대규모 사용자 기반을 가진 서비스가 어떻게 에이전트 네이티브 아키텍처로 전환할 수 있는지에 대한 실질적인 청사진을 제시합니다. 특히 에이전트 평가 체계와 소프트웨어 팩토리 개념은 향후 AI 기반 소프트웨어 개발 방식의 표준이 될 가능성이 높습니다.

섹션별 상세

초기 에이전트 시도는 모델의 지능 부족과 짧은 컨텍스트 윈도우, 표준화된 도구 호출 방식의 부재로 인해 실패를 반복했다. Notion은 이를 극복하기 위해 XML 기반에서 마크다운 및 SQL-like 추상화로 데이터 표현 방식을 변경하며 모델 친화적인 환경을 구축했다. 5번의 재구축 과정을 통해 현재는 안정적인 커스텀 에이전트 아키텍처를 완성했다. 이는 모델의 한계에 맞서기보다 모델이 잘할 수 있는 방식으로 시스템을 설계한 결과이다.

에이전트의 성능을 유지하면서 기능을 확장하기 위해 '점진적 도구 공개(Progressive Disclosure)' 방식을 도입했다. 수백 개의 도구를 한꺼번에 모델에 노출하면 토큰 낭비와 품질 저하가 발생하기 때문에, 필요한 시점에 적절한 도구만 검색하여 제공하는 구조를 갖췄다. 이를 통해 모델이 불필요한 도구를 호출하는 오류를 줄이고 추론 비용을 최적화했다. 결과적으로 개발자가 새로운 도구를 추가해도 전체 시스템의 안정성이 저해되지 않는 확장성을 확보했다.

Notion은 에이전트 평가를 단순한 테스트가 아닌 '에이전트 개발 속도'를 높이는 플랫폼으로 정의한다. 80-90% 통과를 목표로 하는 회귀 테스트와 함께, 모델의 한계를 파악하기 위해 의도적으로 30%만 통과하도록 설계된 '프런티어 평가'를 병행한다. 이를 전담하는 '모델 행동 엔지니어(Model Behavior Engineer)' 직군을 신설하여 모델의 실패 패턴을 분석하고 개선한다. 이러한 체계적인 평가 루프는 에이전트가 실제 프로덕션 환경에서 신뢰할 수 있는 수준의 성능을 내도록 보장한다.

미래 비전으로 제시된 '소프트웨어 팩토리'는 에이전트들이 명세 작성, 코딩, 테스트, 리뷰를 자율적으로 수행하는 시스템이다. 인간 엔지니어의 역할은 직접 코드를 타이핑하는 것에서 에이전트들이 흐르는 외부 시스템을 감독하고 검증하는 방향으로 이동한다. Notion 내부에서는 이미 에이전트가 스스로 버그를 수정하고 PR을 생성하는 워크플로우를 실험 중이다. 이는 소프트웨어 개발의 추상화 계층을 한 단계 높여 생산성을 극대화하는 시도이다.

MCP(Model Context Protocol)와 CLI(Command Line Interface)의 장단점을 분석하며 하이브리드 접근 방식을 취한다. CLI는 에이전트가 스스로 환경을 디버깅하고 도구를 직접 생성할 수 있는 강력한 자율성을 제공하는 반면, MCP는 엄격한 권한 관리와 가벼운 통합에 유리하다. Notion은 핵심 기능에는 고성능 네이티브 통합을 사용하고, 롱테일 도구에는 MCP를 지원하여 생태계 확장성을 확보한다. 이를 통해 보안과 유연성 사이의 균형을 맞춘 에이전트 환경을 제공한다.

text

Sarah Sachs: We have the equivalent of unit test. Regression test. Those live in ci, those have to pass a certain percent... then we have what we call frontier or headroom evals, where we actively wanna be at 30% pass rate.

Notion의 에이전트 평가 체계(회귀 테스트 및 프런티어 평가)에 대한 설명

실무 Takeaway

반복적인 시스템 프롬프트 수정 대신 모델이 선호하는 데이터 형식(Markdown, SQL)으로 인터페이스를 재설계하여 에이전트의 도구 사용 정확도를 높여야 한다.
에이전트 성능 유지를 위해 모든 도구를 한꺼번에 주입하지 말고, 현재 작업 맥락에 필요한 도구만 동적으로 선택해 제공하는 점진적 공개 전략을 적용해야 한다.
단순 통과율 중심의 평가를 넘어 모델의 한계를 측정하는 '프런티어 평가'를 도입하여 차세대 모델 도입 시의 성능 향상 폭을 미리 예측하고 대비해야 한다.

언급된 리소스

문서Notion Custom Agents Launch

문서Model Context Protocol (MCP)

Sarah Sachs: We have the equivalent of unit test. Regression test. Those live in ci, those have to pass a certain percent... then we have what we call frontier or headroom evals, where we actively wanna be at 30% pass rate.

Notion의 토큰 타운: 5번의 재구축, 100개 이상의 도구, MCP vs CLI 그리고 소프트웨어 팩토리의 미래

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

Notion의 토큰 타운: 5번의 재구축, 100개 이상의 도구, MCP vs CLI 그리고 소프트웨어 팩토리의 미래

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드