핵심 요약
LLM이 일반적인 프로그래밍 코드는 잘 작성하지만, 양자 컴퓨팅 분야에서는 특정 소프트웨어 프레임워크에 대한 의존도가 높아 실제 양자 역학적 추론 능력을 평가하기 어려웠다. 이 논문은 Qiskit, PennyLane, Cirq 등 주요 양자 프레임워크를 통합한 벤치마크를 통해 모델의 순수한 양자 알고리즘 설계 능력과 프레임워크 숙련도를 분리하여 측정할 수 있는 기준을 제시한다.
왜 중요한가
LLM이 일반적인 프로그래밍 코드는 잘 작성하지만, 양자 컴퓨팅 분야에서는 특정 소프트웨어 프레임워크에 대한 의존도가 높아 실제 양자 역학적 추론 능력을 평가하기 어려웠다. 이 논문은 Qiskit, PennyLane, Cirq 등 주요 양자 프레임워크를 통합한 벤치마크를 통해 모델의 순수한 양자 알고리즘 설계 능력과 프레임워크 숙련도를 분리하여 측정할 수 있는 기준을 제시한다.
핵심 기여
통합 멀티 프레임워크 벤치마크 QuanBench+ 구축
Qiskit, PennyLane, Cirq 등 세 가지 주요 양자 컴퓨팅 에코시스템을 아우르는 42개의 정렬된 작업을 포함하는 벤치마크를 구축했다. 이를 통해 동일한 논리적 목표를 가진 작업을 서로 다른 프레임워크로 구현할 때의 성능 차이를 직접 비교할 수 있다.
확률적 출력을 위한 KL-divergence 기반 평가 표준화
결과값이 결정론적인 고전 프로그래밍과 달리 확률적 분포를 갖는 양자 프로그램의 특성을 반영하여, KL-divergence를 활용한 분포 일치도 검증 방식을 도입했다. 이를 통해 실행 가능한 기능 테스트 기반의 Pass@k 지표를 양자 영역으로 확장했다.
피드백 기반 코드 수정(Feedback-based Repair) 효과 분석
런타임 에러나 잘못된 결과에 대해 모델이 스스로 코드를 수정할 수 있는 피드백 루프를 평가에 포함했다. 실험 결과, 피드백을 통해 Qiskit 기준 최대 83.3%까지 성능이 향상됨을 확인했으나 여전히 심층적인 논리 오류 해결에는 한계가 있음을 밝혀냈다.
핵심 아이디어 이해하기
기존의 코드 생성 모델 평가는 주로 Python이나 Java 같은 고전적 언어에 집중되어 있으며, 양자 코드를 평가할 때도 특정 라이브러리(예: Qiskit) 하나에만 의존하는 경우가 많았다. 이는 모델이 실제로 양자 알고리즘의 원리를 이해하는 것인지, 아니면 단순히 해당 라이브러리의 코드 패턴을 암기한 것인지 구분하기 어렵게 만든다. 양자 프로그래밍은 큐비트의 상태 중첩과 얽힘을 다루며 결과가 확률 분포로 나타나기 때문에, 단순한 텍스트 일치나 결정론적 실행 결과만으로는 정확성을 보장할 수 없다.
이 논문은 동일한 양자 알고리즘 목표를 서로 다른 세 가지 프레임워크로 구현하게 함으로써 모델의 '이식 가능한 양자 추론 능력'을 측정한다. 예를 들어, 동일한 상태 준비(State Preparation) 작업을 Qiskit과 Cirq에서 모두 성공한다면 이는 프레임워크 문법을 넘어선 알고리즘 이해도가 높음을 의미한다. 반면 특정 프레임워크에서만 성공한다면 이는 단순한 API 암기에 가깝다고 해석할 수 있다.
또한, 양자 측정의 확률적 특성을 처리하기 위해 KL-divergence라는 통계적 도구를 도입했다. 이는 모델이 생성한 회로의 출력 분포와 정답 분포 사이의 거리를 계산하여, 양자 역학적 확률 분포가 허용 범위 내에 있는지 수학적으로 검증한다. 이를 통해 양자 코드 생성 모델이 단순한 문법 복제를 넘어 실제 양자 논리를 구현할 수 있는지에 대한 엄밀한 잣대를 제공한다.
방법론
QuanBench+는 42개의 양자 컴퓨팅 작업을 양자 알고리즘, 게이트 분해, 상태 준비의 세 가지 카테고리로 분류하여 구성했다. 각 작업은 Qiskit, PennyLane, Cirq용 프롬프트로 변환되었으며, 프레임워크 간의 API 차이와 라이브러리 관습을 반영하면서도 기능적 목표는 동일하게 유지하도록 설계되었다.
평가 지표로는 Pass@k를 사용하며, 특히 확률적 작업의 경우 KL-divergence D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))를 계산한다. [정답 분포 P와 모델 생성 분포 Q를 입력으로] → [각 상태 x에 대한 로그 확률 차이의 기댓값을 연산하여] → [두 분포 사이의 정보 손실량을 결과로 얻고] → [이 값이 임계값 0.05 미만이면 정답으로 인정한다].
실험 환경은 Python 3.10 기반의 통제된 샌드박스에서 수행되었으며, Qiskit v0.46.0, Cirq v1.6.1, PennyLane v0.43.1 버전을 사용했다. 모델 평가 시에는 'Prefill'(임포트 및 함수 시그니처 미리 제공) 조건과 'No-prefill'(바닥부터 생성) 조건을 비교하여 프레임워크 보일러플레이트 코드가 성능에 미치는 영향을 분석했다. 또한 최대 5회의 피드백 루프를 허용하여 에러 메시지를 통한 자가 수정 능력을 측정했다.
관련 Figure

반복 실행을 통해 얻은 KL-divergence 분포를 바탕으로 0.05라는 임계값이 통계적으로 타당함을 보여준다. 이는 확률적 양자 프로그램 평가의 객관성을 뒷받침하는 근거가 된다.
정답 분포 일치 여부를 판단하기 위한 KL-divergence 임계값 보정 곡선
주요 결과
실험 결과, Qiskit이 모든 모델에서 가장 높은 성능을 보였으며 PennyLane이 가장 낮은 성능을 기록하는 프레임워크 간 비대칭성이 뚜렷하게 나타났다. 최강 모델인 Gemini 3 Pro는 Qiskit에서 Pass@1 59.5%를 기록했으나 PennyLane에서는 40.5%에 그쳤다. 이는 현재의 LLM들이 특정 프레임워크의 학습 데이터 양에 크게 의존하고 있음을 시사한다.
피드백 기반 수정을 적용했을 때 성능이 대폭 향상되었다. GPT 5.1의 경우 Qiskit에서 Pass@1 점수가 57.1%에서 83.3%로 상승했다. 하지만 분석 결과, 피드백은 주로 단순한 문법 오류나 API 오용 같은 표면적 문제를 해결하는 데 효과적이었으며, 알고리즘 구조 자체의 결함이나 복잡한 양자 논리 오류는 여전히 해결하지 못하는 경우가 많았다.
에러 유형 분석에서는 'Wrong Answer'(46.7%)와 'Logic Errors'(25.0%)가 전체 실패의 70% 이상을 차지했다. 이는 모델이 실행 가능한 코드는 생성할 수 있지만, 양자 역학적으로 올바른 결과를 도출하는 정교한 추론 단계에서는 여전히 한계가 있음을 보여준다.
관련 Figure

모든 모델에서 Qiskit 성능이 가장 높고 PennyLane이 가장 낮게 나타나는 프레임워크 간 성능 격차를 명확히 보여준다. 이는 모델의 양자 코드 생성 능력이 특정 프레임워크 숙련도에 크게 좌우됨을 입증한다.
다양한 LLM들의 Qiskit, Cirq, PennyLane 프레임워크별 Pass@1 성능 비교 차트

피드백을 통해 모든 프레임워크에서 성능이 유의미하게 향상되었음을 보여준다. 특히 상위 모델들은 Qiskit에서 80% 이상의 성공률을 기록하며 자가 수정 능력의 효과를 증명한다.
피드백 루프 적용 후 모델들의 프레임워크별 Pass@1(FB) 성능 향상 결과
기술 상세
QuanBench+는 기존 QuanBench를 확장하여 프레임워크 간 정렬을 강화했다. 특히 양자 회로의 등가성 검증 시 'Fidelity'(상태 중첩도) 대신 'Task Success'(기능적 성공)를 우선시한다. 이는 컴파일이나 최적화 과정에서 회로 구조가 달라지더라도 최종 측정 통계가 동일하면 정답으로 인정함으로써, 실제 개발 환경에서의 유연성을 확보하기 위함이다.
KL-divergence 임계값 설정을 위해 1,000회의 정규 실행 분포를 샘플링하여 99.7% 분위수(quantile)인 0.048을 도출하고, 이를 기반으로 0.05라는 엄격한 기준을 설정했다. 또한 'Prefill' 실험을 통해 모델의 성능 이득이 단순한 라이브러리 임포트나 함수 선언 같은 보일러플레이트 코드 작성을 돕는 수준인지, 아니면 실제 알고리즘 구현 능력을 돕는 것인지 구분하여 분석했다.
한계점
42개의 작업으로 구성되어 있어 실제 양자 소프트웨어 개발의 광범위한 사례를 모두 포괄하기에는 부족할 수 있다. 또한 현재는 Qiskit, PennyLane, Cirq 세 가지 프레임워크에 한정되어 있으며, 프롬프트 변환 과정에서 발생할 수 있는 미세한 뉘앙스 차이가 모델 성능에 영향을 줄 수 있는 잠재적 위험이 존재한다.
실무 활용
양자 컴퓨팅 개발 도구 및 교육용 AI 어시스턴트의 성능을 객관적으로 벤치마킹하고 개선하는 데 활용될 수 있다.
- 양자 소프트웨어 엔지니어를 위한 멀티 프레임워크 코드 변환 도구의 정확도 검증
- 양자 알고리즘 학습용 LLM의 미세 조정(Fine-tuning) 데이터셋 및 평가 지표로 활용
- 자동화된 양자 코드 디버깅 및 피드백 시스템의 벤치마크 가이드라인 제공
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.