TL;DR
Lean/Mathlib의 잦은 업데이트 주기 속에서 LLM의 지식 cutoff이 현실과 동떨어진 경우가 많다. Lean Refactor는 전략 은행을 이용한 inference-time retrieval으로 다중 목표를 조정하고 버전 호환성을 유지하며 재학습 없이도 성능을 달성한다.
왜 중요한가
Lean/Mathlib의 잦은 업데이트 주기 속에서 LLM의 지식 cutoff이 현실과 동떨어진 경우가 많다. Lean Refactor는 전략 은행을 이용한 inference-time retrieval으로 다중 목표를 조정하고 버전 호환성을 유지하며 재학습 없이도 성능을 달성한다.
핵심 기여
전략 은행의 대형 코퍼스 공개
200K 장-단문 증명쌍과 9,237개 고유 전략으로 구성된 전략 은행을 구축하고, 각 전략에 컴파일 시간 감소 및 버전 호환성 메타데이터를 부여한다.
다객체 최적화 및 버전 호환성 보장
Proof 길이, 컴파일 시간, Lean/Mathlib 버전 간의 trade-off를 inference-time에 제어하는 다목적 검색 및 재정렬을 제공한다.
LLM-agnostic, 훈련 없이 운용
프런티어 LLM에 의존하지 않고 strategy bank를 조회해 refactoring을 수행하는 플러그-앤-플레이 에이전트 루프를 제시한다.
핵심 아이디어 이해하기
[단계 1] 문제 정의: Lean 증명은 길이와 컴파일 비용, 버전 호환성이라는 상충 가능한 다중 목표를 가진다. 단일 축으로 최적화하는 기존 접근은 이 상호작용을 놓치기 쉽다. [단계 2] 해결 원리: 전략 은행에 densely annotated한 refactoring 패턴을 저장하고, inference 시점에 목표를 재구성해 다목적 최적화를 추진한다. [단계 3] 기대 효과: 버전 간 전이성과 컴파일 시간 개선을 동시에 달성하고, LLM의 지식 cutoff에 의한 한계를 은행 메타데이터로 보완한다.
방법론
단락 1: Dense 전략 은행과 버전-aware 메타데이터의 구성 원리. 전략은 제목/설명/When to Apply/적용 가이드/예시/감소 정도로 구성되며, 컴파일 시간 감소와 버전 호환성 메타데이터가 포함된다. 단락 2: Multi-Objective Retrieval 설계. 쿼리-전략 매핑에서 코사인 유사도와 컴파일-비용 감소를 결합한 재정렬/필터링으로 목표를 달성한다. 단락 3: Plug-and-Play 에이전트 루프. Retrieval-Planer-Refactorer-Debugger의 순환으로 증명을 점진적으로 축약하고, 컴파일 실패 시 국소적 수정을 거친다.
관련 Figure

methodology를 보강하는 다이어그램으로, 버전 호환성 및 컴파일 비용 메타데이터를 활용한 Retrieval-then-Rerank의 흐름을 보여준다
Figure 1: Lean Refactor의 다목적 제어 흐름(전략 은행, 멀티오브젝트 검색, 에이전트 루프)

Agent loop의 구성요소를 시각화, 시스템이 어떻게 상호작용하는지 보여준다
Figure 4: Lean Refactor의 엔터프라이즈 루프 구조(Planner/Refactorer/Debugger)
주요 결과
경쟁 벤치마크에서 Proof 길이 압축은 최대 70% 이상, miniF2F/PutnamBench/Putnam2025에서 우수한 성능을 보인다. 연구 벤치마크에서도 평균 20% 이상 압축이 관찰되며, 여러 벤치에서 버전 호환성 유지 및 zero-shot 전이 성능 향상을 확인했다. 컴파일 시간 측면에서 평균 최대 60%의 감소를 보고하지만, 일부 케이스에서 버전 간 불일치로 상대 컴파일 시간이 증가하는 현상도 관찰되었다. 버전 필터링 Retrieval은 특정 Lean 버전으로의 전이에서 일관된 이점을 제공한다.
관련 Figure

증명 길이가 컴파일 비용을 충분히 설명하지 못함을 시사하며, 다객체 최적화의 필요성을 뒷받침한다
Figure 2: Proof length와 compilation time 간의 약한 상관관계(토큰 길이만으로는 비용 예측 어려움)

벤치마크 구성 및 데이터 분포를 시각화해 평가 맥락을 이해하는 데 도움
Figure 6: 비교 연구의 벤치마크 구성(Proof length의 분포)

다중 목표 retrieval의 효과와 수렴성의 시각화로 실용성을 강조
Figure 8: API 호출 수에 따른 성능 수렴(훈련 없이 inference-time 기준 성능 향상)
실무 활용
전략 은행을 통한 인퍼런스 시점의 다목적 최적화로 Lean 증명 유지보수와 버전 관리에 실용적 이점을 제공한다.
- Lean/Mathlib 버전 간의 자동 리팩토링 파이프라인 지원
- 대회 문제/연구 수준 증명의 간략화 및 검증 속도 향상
- Verifiable code generation 및 PDE 같은 수학-검증 도메인에서의 증명 품질 향상
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.