소형 언어 모델용 Code-Guided Reasoning: 실행 가능한 MCQA 스캐폴드 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다수의 MCQA 벤치마크는 SLM의 직접 응답 정확도만 평가한다. CGR은 아이템별 Python 스캐폴드를 생성해 실행 흐름을 통해 solver를 다수 호출하고, direct/assisted/generator-side의 세 채널로 결과를 분리해 기록한다. 비제로-baseline 파티션에서 어시스트 정확도가 66.21%로 나타났고, direct는 38.11%로 나타났다. 이는 실행 가능한 scaffold가 MCQA에서 단일 프롬프트의 한계를 넘어 외부 제어 흐름과 상태 추적을 통해 성능 차이를 유발할 수 있음을 보여주며, 그에 따른 감사(trace)와 한계 진단이 가능함을 시사한다.

왜 중요한가

다수의 MCQA 벤치마크는 SLM의 직접 응답 정확도만 평가한다. CGR은 아이템별 Python 스캐폴드를 생성해 실행 흐름을 통해 solver를 다수 호출하고, direct/assisted/generator-side의 세 채널로 결과를 분리해 기록한다. 비제로-baseline 파티션에서 어시스트 정확도가 66.21%로 나타났고, direct는 38.11%로 나타났다. 이는 실행 가능한 scaffold가 MCQA에서 단일 프롬프트의 한계를 넘어 외부 제어 흐름과 상태 추적을 통해 성능 차이를 유발할 수 있음을 보여주며, 그에 따른 감사(trace)와 한계 진단이 가능함을 시사한다.

핵심 기여

Executable MCQA scaffold를 평가 설정으로 제시

동일한 목표 해결기를 direct prompt와 생성된 Python 스캐폴드에 배치해, direct/assisted/generator-side의 해답 채널을 독립적으로 평가한다. 이는 실행 가능한 코드가 MCQA에서 의사추론의 흐름을 바꿀 수 있는지 판단하는 실험설계다.

CG R trace 패키지와 로깅 체계 도입

20,498개 행의 MCQA 번들을 로컬 번들로 정규화하고, 아이템-id, 골드 답안, 직접/도움받은/생성자 채널의 해답, 호출 로그, 생성된 프로그램, 응답 메타데이터 등을 기록하는 추적 패키지를 제공한다.

실험적 결과의 다중 채널 분석 제시

Direct baseline, Assisted solver, Generator-side의 세 채널을 각각 macro 수준으로 분리해 분석하고, Ab(d,m) > 0% 및 Ab(d,m) > 30%와 같은 게이트를 두어 결과를 해석하는 프레임을 제시한다.

Time-MQA 등 한계 조건과 감사 보고 병렬 제시

Time-MQA에서의 재현성 저하 및 추출 실패, 생성 코드의 하드코딩 가능성 등 스캐폴드의 한계를 audit 형태로 공개한다.

핵심 아이디어 이해하기

출발점: Transformer 기반 SLM은 수많은 토큰 간 상호작용을 학습하지만, 단일 option 선택 프롬프트로는 복잡한 문제해결 전략이 제한될 수 있다. 본 연구는 generator가 item-specific Python 스캐폴드를 작성해 solver를 여러 차례 호출하고, 중간 결과를 추출·검증하며 최종 선택을 수행하도록 하는 실행 가능한 제어 흐름을 도입한다. 방법론적으로, y⋆_q를 골드 라벨로 두고, direct-path에서 Solver API Sm(q)로 yb를 얻으며, assisted-path에서 (ya, yg, hˆ) = pq,g(q,d, Sm)로 ya(assisted solver answer), yg(generator-side answer), hˆ(generator-estimated difficulty)를 얻는다. zc(q,m,g) = 1{ ya = y⋆_q } 등으로 각 채널의 정답 여부를 평가한다. 이 구조는 three-channel 기록과 audit를 통해 scaffold의 효과를 해석 가능하게 만든다. 패널링: Ab(d,m), Aa(d,m), Ag(d,m) 정의와 비제로-baseline 파티션의 불확실성은 부트스트랩으로 추정되며, ρM은 Generator-gap closure를 나타낸다. 결과적으로, scaffold는 때로 직접 해답의 한계를 보완하고, 때로는 이미 강한 Direct 신호를 방해하며 Time-MQA에서 역효과를 낳기도 한다.

방법론

CGR 프로토콜은 Direct path에서 solver를 한 번 호출하고, Assisted path에서 generator가 작성한 Python scaffold를 통해 pq,g(q,d)를 실행해 ya, yg, hˆ를 산출한다. 2) 각 evaluated item은 (q, d, m, g)로 표현되며, pq,g는 고정된 반환 계약을 가진 생성 프로그램이다. 3) 직접 경로의 yb = Sm(q), 보조 경로의 (ya, yg, hˆ) = pq,g(q, d, Sm), y⋆_q는 골드 옵션이다. 4) Correctness는 zc(q, m, g) = 1{ yc = y⋆_q }로 평가되며, Direct, Assisted, Generator-side 채널은 독립적으로 보고된다. 5) 생성된 프로그램은 합성된 스캐폴드이며, 실행 도중 llm_model(prompt, exp_config), extract_answer(response) 인터페이스를 통해 solver 호출과 답안 추출이 수행된다. 6) prompted 제한과 no-hard-coding 규칙은 런타임) 제약으로 기록되며, 응답 메타데이터, 호출 수, 추출 실패율 등은 Audit에 포함된다. 7) 비제로-baseline 파티션의 Macro 정확도는 Ab > 0%에서 38.11%에서 Aa = 66.21%로 상승하는 경향이 관찰되었고, Ab > 30% 게이트에서 +14.11 pp의 추가 증가를 보인다.

주요 결과

단락 1: 메인 벤치마크 결과 - 모든 평가 항목에서 Direct: 23.27%, Assisted: 62.41%, Gen-side: 79.19%. Observed non-zero baseline macro는 38.11% ± 28.48, 66.21% ± 20.14, 81.58% ± 14.47로 나타나며, 차이는 +28.10 pp ± 24.04이다. 단락 2: Time-MQA 등에서의 한계 - Time-MQA는 강한 Direct 신호를 가진 설정에서 scaffold의 분해가 역효과를 낳는 경향이 있어 Time-MQA를 경계 조건으로 제시한다. 단락 3: 제로-baseline 진단 - Zero-baseline에서 Generator-side는 60+% 수준의 정확도를 보이고, OpenBookQA, OBQA 계열에서 높은 어시스트를 보인다. 단락 4: 데이터셋/솔버별 패턴 - MedQA, AIME 등에서 대규모의 개선이 관찰되며, 일부 조합은 시간이 지남에 따라 감소하는 경향도 나타난다. 부트스트랩 95% 구간은 [20.32, 36.43] pp로 보고된다.

기술 상세

구조: CGR은 Direct path, Assisted path, Generator-side path의 세 채널로 MCQA를 다룬다. 아키텍처는 generator가 q에 대한 Python pq,g를 생성하고, solver는 Sm으로 질의한다. pq,g(q,d, Sm) 호출은 (ya, yg, hˆ)로 구성되며, ya는 solver의 선택된 답, yg는 generator가 선택한 답, hˆ는 generator가 추정한 난이도이다. 평가 단위는 (q, d, m, g)이며, yb = Sm(q)로 Direct path의 해답을 얻고, y⋆_q는 골드 라벨이다. Correctness는 zc(q, m, g) = 1{ ya = y⋆_q } 또는 zc(q, m, g) = 1{ yb = y⋆_q } 또는 zc(q, m, g) = 1{ yg = y⋆_q }의 형태로 채널별로 산출된다. Ab(d,m), Aa(d,m), Ag(d,m)로 Direct, Assisted, Generator-side 정확도를 표현하고, Cτ = { (d,m): Ab(d,m) > τ }로 부분집합을 만들며, ∆τ = Στ (Aa(d,m) − Ab(d,m)) / |Cτ|으로 Macro 이익을 계산한다. 0% 게이트에서의 추정은 +28.10 pp, Ab>30% 게이트에서 +14.11 pp로 보고되며, 부트스트랩으로 신뢰구간이 제시된다. 추출 실패율은 0.44%에서 15.67%까지 증가하는 경향을 보이며, 이는 Assisted 경로의 응답 추출이 더 불안정하다는 점을 시사한다. 추적 로그의 구조적 한계로 인해 Generator-side의 생성 코드가 모든 행에 연결되지는 않는다.

한계점

제시된 증거는 CGR이 동일 비용으로 universally beneficial하다고 입증하지 않는다. 또한 no-hard-coding 규칙의 런타임 검증은 미비하며, 실행 환경은 샌드박스나 시간 분포의 검증을 갖추지 않았다. Retained artifacts는 다양한 제어(예: 매치된 예산의 Direct self-consistency, 생성된 코드 샘플링의 반복, 독립된 코드 기반 검증, 소스-grounded 검증 등)가 포함되지 않았다. Zero-baseline는 진단용으로만 간주되며, deployment 근거로 읽지 않는다.

실무 활용

CGR 아티팩트는 실행 가능한 MCQA 스캐폴드의 품질과 한계를 감시하는 평가 프레임워크로 의도되었다. 배치된 direct/assisted/generator-side 채널의 상호작용과 추출 실패를 드러냄으로써 프롬프트·스캐폴드 설계의 안전한 해석과 향후 제어 메커니즘 도입에 기여한다.

MCQA 평가 파이프라인에서 실행 가능한 스캐폴드의 효과를 진단하고 비교하는 연구
스캐폴드 구성요소(프롬프트, 생성 코드, 추출 로직)의 감사/로깅 체계 구축
추가 제약 조건(예: 실행 시간, 호출 수, 샘플링 전략)을 포함한 공정한 벤치마크 설계
안전성 및 재현성 검토를 위한 auditors용 데이터 재현성 기록

코드 공개 여부: 비공개

키워드

MCQA(다지선다 QA)CGR(Code-Guided Reasoning)executable reasoning(실행 가능 추론)Python scaffold(파이썬 스캐폴드)trace package(트레이스 패키지)bootstrap interval(부트스트랩 구간)non-zero-baseline(비제로-baseline)