핵심 요약
기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.
왜 중요한가
기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.
핵심 기여
HEAVYSKILL 프레임워크 제안
에이전트 하네스의 복잡한 오케스트레이션 기능을 LLM 내부의 '헤비 씽킹' 기술로 추상화하고, 병렬 추론과 순차적 숙의라는 2단계 워크플로우로 단순화했다.
테스트 타임 스케일링 법칙 검증
병렬 경로의 수(너비)와 숙의의 깊이를 확장함으로써 모델의 성능이 정체되지 않고 지속적으로 향상됨을 실험적으로 확인했다.
강화학습을 통한 기술 내재화
검증 가능한 보상(RLVR)을 활용한 강화학습이 병렬 생성의 너비와 숙의의 깊이를 동시에 최적화하여 모델의 추론 경계를 확장할 수 있음을 보여주었다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 여러 하위 에이전트를 관리하는 복잡한 외부 시스템에 의존해 문제를 해결했다. 이는 마치 사람이 도구 사용법만 배우고 스스로 생각하는 힘을 기르지 못한 것과 같다. HEAVYSKILL은 이러한 외부 시스템의 기능을 모델 내부의 '사고 기술'로 전환하여, 모델이 스스로 여러 해결 경로를 탐색하고 이를 종합하도록 만든다.
동작 원리는 딥러닝의 임베딩 공간에서 다양한 추론 궤적을 생성하는 것에서 시작한다. 먼저 병렬 추론 단계에서 모델은 동일한 문제에 대해 독립적인 여러 개의 사고 체인을 생성한다. 이는 탐색 공간의 너비를 확장하여 정답이 포함될 확률을 높이는 과정이다.
마지막으로 순차적 숙의 단계에서는 생성된 모든 궤적을 컨텍스트로 입력받아 비판적으로 분석한다. 단순히 다수결로 답을 정하는 것이 아니라, 각 추론 과정의 논리적 결함을 찾아내고 서로 다른 접근법을 합성하여 새로운 정답을 도출한다. 이를 통해 개별 추론에는 없던 통찰을 만들어내며 모델의 한계를 극복한다.
방법론
HEAVYSKILL은 추론 파이프라인을 병렬 추론과 순차적 숙의 두 단계로 분리하여 구성한다. 병렬 추론 단계에서는 주어진 문제 q에 대해 K개의 독립적인 추론 궤적 T = {y1, ..., yK}를 생성한다. 이때 각 궤적은 서로 간섭 없이 독립적으로 생성되어 다양한 해결 전략을 확보한다.
생성된 궤적들은 직렬화된 메모리 캐시(Serialized Memory Cache) 메커니즘을 통해 정리된다. 각 궤적의 사고 과정과 답변을 텍스트로 연결하고, 모델의 컨텍스트 길이를 초과하지 않도록 가지치기(pruning) 및 셔플링을 수행하여 특정 위치에 대한 편향을 방지한다.
순차적 숙의 단계에서는 캐싱된 궤적들을 입력받아 메타 분석을 수행한다. 모델은 답변 분포를 확인하고, 각 체인의 논리적 타당성을 검토하며, 필요시 정답을 재유도한다. 이 과정은 반복적 숙의(Iterative Deliberation)를 통해 N회차까지 확장될 수 있으며, 이전 단계의 요약본을 다시 입력으로 사용하여 사고의 깊이를 더한다.
관련 Figure

사용자 쿼리로부터 병렬 추론, 메모리 캐싱, 순차적 숙의를 거쳐 최종 출력이 나오는 과정을 보여준다. 특히 반복적 업데이트 옵션을 통해 사고의 깊이를 조절할 수 있는 구조를 명확히 제시한다.
HEAVYSKILL의 전체 프레임워크 개요도
주요 결과
STEM 분야 벤치마크(AIME25, GPQA-Diamond 등)에서 HEAVYSKILL은 기존의 다수결 방식(Majority Voting)을 일관되게 능가했다. 특히 GPT-5 Thinking이나 Kimi K2와 같은 강력한 모델에서 HEAVYSKILL을 적용했을 때, 이론적 한계치인 Pass@K 성능에 근접하는 결과를 보였다.
도구 사용(Tool Use) 시나리오에서도 효과가 입증되었다. GPT-OSS-20B 모델의 경우 AIME25에서 다수결 방식은 83.3%의 정확도를 보였으나, HEAVYSKILL 프레임워크 하에서는 90.0%를 기록하여 복잡한 도구 상호작용 환경에서도 숙의 메커니즘이 유효함을 증명했다.
반복적 숙의 실험에서는 반복 횟수가 증가함에 따라 평균 정확도(HM@K)는 상승하는 경향을 보였으나, 특정 지점 이후에는 이전 단계의 노이즈가 누적되어 잠재적 성능(HP@K)이 다소 하락하는 트레이드오프 관계가 관찰되었다.
관련 Figure

M@K, P@K, V@K 등 기존 지표와 HEAVYSKILL의 지표(HM@K, HP@K)를 비교한다. 거의 모든 설정에서 HEAVYSKILL이 단순 다수결(V@K)보다 우수한 성능을 보임을 시각화한다.
다양한 모델 및 벤치마크에서의 성능 비교 차트
기술 상세
HEAVYSKILL은 에이전트의 기능을 '읽기 가능한 기술(Readable Skill)' 문서로 정의하여 이식성을 높였다. 이 문서는 활성화 조건, 병렬 추론 프로토콜, 숙의 프롬프트, 출력 제약 사항의 4가지 요소로 구성된다. 이는 특정 프레임워크에 종속되지 않고 Claude Code나 사용자 정의 오케스트레이터에서 즉시 로드하여 실행할 수 있다.
수학적으로는 테스트 타임 컴퓨팅 자원을 너비(K)와 깊이(N)라는 두 축으로 확장하는 전략을 취한다. 숙의 모델 πφ는 병렬 모델 πθ가 생성한 궤적들을 입력값으로 받아 [궤적 집합 → 비판적 분석 및 합성 → 최종 답변] 순의 연산을 수행한다. 실험 결과, 숙의 단계의 모델은 반드시 최상위 추론 능력을 갖출 필요는 없으며, 지시 이행 능력이 뛰어난 대형 모델일수록 여러 궤적을 효과적으로 합성하는 것으로 나타났다.
관련 Figure

추론 경로의 수(K)가 늘어날수록 성능이 지속적으로 향상되는 '테스트 타임 스케일링' 현상을 보여준다. 특히 Max-Answer-Num 전략이 다른 선택 전략보다 월등히 높은 효율을 보임을 입증한다.
병렬 궤적 수(K) 증가에 따른 성능 변화 그래프
한계점
반복적인 숙의 과정에서 이전 단계의 정보가 누적될 때 누적 노이즈나 편향이 발생하여 모델의 정제 공간을 제한할 수 있는 가능성이 확인되었다. 또한 주관적인 정렬이 중요한 Arena-Hard와 같은 벤치마크에서는 성능 향상이 미미하거나 약간의 부정적인 영향이 관찰되었다.
실무 활용
복잡한 수학 문제 풀이, 코드 생성 및 리팩터링, 논리적 추론이 필요한 에이전트 시스템에 즉시 적용 가능한 기술이다.
- 수학 및 과학 경시대회 수준의 복잡한 문제 해결 자동화
- 대규모 코드베이스의 논리적 오류 탐지 및 자동 수정 에이전트
- 다양한 전문가 의견을 종합하여 최종 결론을 도출하는 의사결정 지원 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.