SubQ 소개: 최초의 완전한 서브쿼드라틱 LLM

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 트랜스포머 모델은 컨텍스트 길이가 길어질수록 연산량이 제곱으로 늘어나는 quadratic scaling 문제가 있었으나, SubQ는 이를 선형적으로 증가하는 subquadratic 구조로 해결했습니다. SubQ 1M-Preview 모델은 100만 토큰 이상의 긴 컨텍스트에서도 높은 정확도를 유지하며, 기존 FlashAttention 대비 52배 빠른 속도와 63% 적은 연산량을 기록했습니다. 이 아키텍처는 최대 1,200만 토큰까지 성능 저하 없이 확장 가능함을 연구를 통해 입증했습니다. 이를 통해 개발자들은 RAG나 복잡한 청킹 전략 없이도 전체 코드베이스나 대규모 문서군을 모델에 직접 입력할 수 있게 됩니다.

배경

트랜스포머 아키텍처의 Quadratic Scaling 문제에 대한 이해, RAG(검색 증강 생성) 및 컨텍스트 윈도우 제한에 대한 실무 경험

대상 독자

대규모 코드베이스나 방대한 문서를 다루는 LLM 애플리케이션 개발자 및 AI 인프라 비용 최적화가 필요한 엔터프라이즈 팀

의미 / 영향

트랜스포머의 제곱 스케일링 법칙을 깨뜨림으로써 RAG와 같은 복잡한 우회 전략의 필요성이 줄어들 것입니다. 이는 AI 모델이 수천만 토큰의 영구적인 상태를 유지하며 더 깊은 추론을 수행하는 새로운 클래스의 애플리케이션 등장을 가속화할 것입니다.

섹션별 상세

기존 트랜스포머 아키텍처는 모든 토큰을 서로 비교하는 특성상 입력 길이가 늘어날수록 연산 비용이 제곱으로 증가하는 한계가 있었습니다. SubQ는 이를 근본적으로 재설계하여 연산량이 컨텍스트 길이에 선형적으로 비례하도록 구현함으로써 대규모 입력 처리를 가능하게 했습니다. 연구 단계에서는 최대 1,200만 토큰까지 처리하며 기존 프론티어 모델 대비 어텐션 연산량을 약 1,000배 절감했습니다. 이는 긴 컨텍스트를 다루는 AI 시스템의 비용과 지연 시간을 획기적으로 낮추는 기반이 됩니다.

SubQ 1M-Preview 모델은 긴 컨텍스트 추론 성능을 측정하는 RULER 128K 벤치마크에서 95%의 정확도를 기록하며 Claude Opus 4.6(94.8%)을 상회했습니다. 또한 실제 환경과 유사한 다중 정보 검색 및 추론 테스트인 MRCR v2에서 65.9점을 기록하여 기존 SOTA 모델들보다 우수한 성능을 보였습니다. SWE-Bench Verified에서도 81.8점을 획득하여 코딩 에이전트로서의 강력한 성능을 입증했습니다. 이러한 수치들은 효율성을 위해 성능을 희생하지 않았음을 보여주는 핵심 근거입니다.

SubQ 아키텍처에 적용된 Sparse Attention 기술은 기존 표준인 FlashAttention보다 52배 빠른 속도를 제공하면서도 연산 자원은 63% 적게 소모합니다. 이는 하드웨어 효율성을 극대화하여 대규모 워크로드를 운영하는 기업의 인프라 비용을 직접적으로 절감해 줍니다. 특히 5,000만 토큰 이상의 컨텍스트 확장을 목표로 하고 있어 AI 애플리케이션의 설계 패러다임을 바꿀 것으로 기대됩니다. 경제적 제약으로 인해 포기했던 고비용 AI 서비스들의 상용화가 가능해지는 시점입니다.

실무 Takeaway

SubQ 1M-Preview는 100만 토큰 이상의 긴 컨텍스트에서도 95% 이상의 정확도를 유지하므로 RAG 시스템의 복잡한 검색 파이프라인을 단순화할 수 있습니다.
FlashAttention 대비 52배 빠른 속도와 63% 낮은 연산 비용을 통해 대규모 문서 분석이나 전체 코드베이스 리뷰 시 인프라 비용을 획기적으로 절감할 수 있습니다.
SubQ Code CLI 도구를 활용하면 전체 리포지토리를 단일 컨텍스트에 로드하여 멀티 에이전트 조율 없이도 코드베이스 전체를 한 번에 분석하고 수정할 수 있습니다.