Themis: 유연한 다기준 평가를 위한 강건한 다국어 코드 보상 모델 학습

기존의 코드 생성 AI는 단순히 테스트 케이스 통과 여부(정확성)만으로 평가받아 왔으나, 실제 소프트웨어 개발에서는 실행 속도, 메모리 효율성, 보안성이 매우 중요합니다. 이 논문은 코드의 5가지 핵심 품질 기준을 다국어 환경에서 동시에 평가할 수 있는 세계 최대 규모의 데이터셋과 보상 모델을 공개하여, 더 안전하고 효율적인 AI 코딩 도구 개발의 토대를 마련했습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Themis-CodeRewardBench 벤치마크 구축

8개 프로그래밍 언어와 5가지 평가 기준(정확성, 실행 효율성, 메모리 효율성, 가독성, 보안성)을 아우르는 약 8,900개의 정교한 코드 선호도 평가 데이터를 구축했다.

최대 규모의 오픈소스 코드 선호도 데이터셋 공개

GitHub 커밋 데이터와 합성 데이터를 활용하여 구축한 35만 개 이상의 코드 선호도 쌍을 포함하는 Themis-CodePreference 데이터셋을 개발했다.

다기준 코드 보상 모델 Themis-RM 개발

600M에서 32B 파라미터 규모의 Qwen3 기반 보상 모델 제품군을 학습시켰으며, 모든 평가 지표에서 기존 SOTA 모델들을 압도하는 성능을 기록했다.

교차 언어 및 교차 기준 전이 효과 입증

특정 언어나 기준에서 학습된 지식이 다른 언어와 비기능적 품질 기준으로 효과적으로 전이됨을 실험적으로 증명하여 다국어 코드 보상 모델의 효율성을 확인했다.

관련 Figure

#1Chart
Themis 데이터셋이 기존 벤치마크(CodeJudge, RM-Bench 등)보다 훨씬 긴 코드 시퀀스와 깊은 추상 구문 트리(AST) 구조를 가지고 있음을 보여줍니다. 이는 본 연구가 더 복잡하고 실제적인 프로그래밍 시나리오를 다루고 있음을 증명합니다.
Themis-CodeRewardBench와 기존 벤치마크의 코드 길이 및 복잡도 분포 비교 차트

핵심 아이디어 이해하기

기존 코드 생성 모델의 정렬(Alignment)은 주로 '테스트 케이스 통과'라는 이진 피드백에 의존해 왔습니다. 이는 딥러닝의 기초인 Gradient Descent 과정에서 정답과 오답 사이의 미세한 품질 차이를 반영하기 어렵게 만들며, 특히 실행 불가능한 코드 조각이나 외부 라이브러리 의존성이 높은 실제 개발 환경의 코드를 평가하는 데 한계가 있습니다.

Themis는 이러한 한계를 극복하기 위해 코드의 의미적 특징을 벡터 공간(Embedding)에서 파악하는 보상 모델(Reward Model) 방식을 채택합니다. 단순히 실행 결과만 보는 것이 아니라, 모델이 코드의 구조와 맥락을 이해하여 '더 효율적인 알고리즘'이나 '더 안전한 함수'를 선호하도록 학습시킵니다.

특히 다중 작업 학습(Multi-task Learning)에서 발생하는 기준 간 간섭 문제를 해결하기 위해 시스템 프롬프트를 활용한 조건부 학습 전략을 사용합니다. 이를 통해 하나의 모델이 정확성이라는 기초 개념을 바탕으로 보안성이나 가독성 같은 고차원적인 기준들을 독립적이면서도 상호 보완적으로 평가할 수 있게 됩니다.

방법론

Themis-RM의 학습은 두 단계로 진행됩니다. 첫 번째 단계인 선호도 모델 사전 학습(PT)에서는 일반적인 인간의 선호도(도움됨, 무해함 등)를 이해시키기 위해 11만 개 이상의 자연어 및 코드 혼합 데이터를 사용합니다. 두 번째 단계인 선호도 모델링(PM)에서는 35만 개의 코드 전용 선호도 데이터를 통해 5가지 핵심 품질 기준을 집중적으로 학습시킵니다.

핵심 메커니즘은 Bradley-Terry 목적 함수를 기반으로 한 스칼라 보상 모델링입니다. [입력 프롬프트와 두 개의 답변 후보 → 보상 모델 연산 → 각 답변에 대한 스칼라 점수 출력] 과정을 거치며, 선택된 답변의 점수가 거절된 답변보다 높게 책정되도록 가중치를 갱신합니다.

학습의 안정성을 위해 세 가지 손실 함수를 결합합니다. 첫째, 두 답변의 점수 차이를 최대화하는 로그 시그모이드 손실, 둘째, 모델이 언어 생성 능력을 잃지 않도록 돕는 조건부 언어 모델링 손실(Conditional LM Loss), 셋째, 보상 점수가 너무 극단적으로 치우치지 않도록 제한하는 보상 크기 규제(Reward Magnitude Regularizer)를 적용합니다. [보상 모델의 출력값 → 제곱 연산 및 계수 곱셈 → 손실 함수 합산]을 통해 모델의 출력 범위를 일정하게 유지합니다.

주요 결과

Themis-RM 32B 모델은 Themis-CodeRewardBench의 모든 기준에서 기존 모델들을 압도했습니다. 특히 기능적 정확성(FC)에서 94.27%의 정확도를 기록했으며, 기존 모델들이 무작위 수준(약 50%)에 머물렀던 보안성(94.55%)과 메모리 효율성(95.16%) 등 비기능적 지표에서도 탁월한 성능을 보였습니다.

Ablation Study 결과, 사전 학습(PT) 단계와 보상 크기 규제(AuxLoss)가 모델의 강건성 향상에 필수적임이 확인됐습니다. 특히 FC 데이터로만 학습했을 때보다 5가지 기준을 모두 학습했을 때 각 기준별 성능이 더 높게 나타나, 품질 기준 간의 긍정적인 전이 효과가 존재함을 입증했습니다.

다국어 성능 분석에서는 Python으로 학습된 모델이 동적 타이핑 언어(JavaScript, Ruby)로 잘 전이되고, Java로 학습된 모델이 정적 타이핑 언어(C#, C++)로 잘 전이되는 경향을 보였습니다. 최종적으로 모든 언어를 통합 학습했을 때 가장 안정적이고 높은 성능을 달성했습니다.

관련 Figure

#4Chart
Themis-RM 제품군이 정확성(FC)뿐만 아니라 실행 효율성(EE), 보안성(SH) 등 모든 비기능적 지표에서 기존의 거대 모델(Llama-3.3 70B 등)보다 월등히 높은 성능을 보임을 수치로 나타냅니다. 특히 0.6B의 작은 모델조차 특정 지표에서 거대 모델을 앞서는 효율성을 보여줍니다.
다양한 보상 모델들의 기준별 정확도 비교표

기술 상세

Themis-RM은 Qwen3 Dense 모델 아키텍처를 기반으로 하며, 600M부터 32B까지 다양한 크기로 제공됩니다. 모든 모델은 bfloat16 정밀도로 학습되었으며, Flash Attention v2와 FSDP(Fully Sharded Data Parallel)를 적용하여 대규모 학습 효율을 확보했습니다.

데이터 구축 과정에서 ModernBERT 기반의 커밋 분류기를 학습시켜 GitHub의 방대한 커밋 중 특정 품질 기준(예: 보안 패치, 성능 최적화)에 부합하는 고품질 데이터를 정교하게 추출했습니다. 또한, 기존 데이터셋에 질문이 없는 경우 LLM을 이용해 역으로 질문을 생성하는 Inverse-Instruct 기법을 적용하여 데이터의 밀도를 높였습니다.

모델의 강건성을 위해 Aletheia-Adv와 같은 적대적 공격 데이터셋에서도 평가를 진행했습니다. 실험 결과 Themis-RM은 모델 크기가 커질수록 적대적 공격에 대한 방어력이 선형적으로 증가하는 Scaling Law를 따르는 것으로 나타났으며, 이는 단순한 패턴 매칭이 아닌 코드의 논리적 구조를 깊이 있게 이해하고 있음을 시사합니다.

한계점

Themis-CodeRewardBench는 고자원 및 중급 자원 언어 8개에 집중되어 있어, 저자원 프로그래밍 언어에 대한 성능은 아직 검증되지 않았습니다. 또한, GitHub 커밋 데이터의 특성상 2019년 3월 이전의 데이터로 학습 기간이 제한되어 있어 최신 라이브러리나 프레임워크의 변화를 완벽히 반영하지 못할 수 있습니다.

실무 활용

Themis-RM은 실행 환경 구축이 어려운 복잡한 코드나 보안이 중요한 기업용 코드 생성 파이프라인에서 강력한 평가 도구로 활용될 수 있습니다. 테스트 케이스 없이도 코드의 다각도 품질을 점수화할 수 있어 개발 생산성을 크게 높입니다.

실행 환경 구축이 어려운 대규모 저장소(Repository) 단위의 코드 생성 결과물 자동 검수
코드 리뷰 에이전트가 생성된 코드의 보안 취약점이나 메모리 누수 가능성을 사전에 필터링
강화학습(RLHF)을 통한 코드 생성 모델의 다기준 품질 최적화(정확성+효율성+보안)
검색 기반 코드 추천 시스템에서 가장 가독성이 높고 효율적인 코드를 상단에 배치하는 리랭커(Re-ranker)

코드 공개 여부: 공개

코드 저장소 보기

키워드

Reward Model(보상 모델)Code Generation(코드 생성)Multi-Criteria(다중 기준)Functional Correctness(기능적 정확성)Security Hardness(보안 강도)Cross-Lingual Transfer(교차 언어 전이)

Themis: 유연한 다기준 평가를 위한 강건한 다국어 코드 보상 모델 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Themis-CodeRewardBench 벤치마크 구축

최대 규모의 오픈소스 코드 선호도 데이터셋 공개

GitHub 커밋 데이터와 합성 데이터를 활용하여 구축한 35만 개 이상의 코드 선호도 쌍을 포함하는 Themis-CodePreference 데이터셋을 개발했다.

다기준 코드 보상 모델 Themis-RM 개발

600M에서 32B 파라미터 규모의 Qwen3 기반 보상 모델 제품군을 학습시켰으며, 모든 평가 지표에서 기존 SOTA 모델들을 압도하는 성능을 기록했다.

교차 언어 및 교차 기준 전이 효과 입증

관련 Figure

핵심 아이디어 이해하기

방법론

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

실행 환경 구축이 어려운 대규모 저장소(Repository) 단위의 코드 생성 결과물 자동 검수
코드 리뷰 에이전트가 생성된 코드의 보안 취약점이나 메모리 누수 가능성을 사전에 필터링
강화학습(RLHF)을 통한 코드 생성 모델의 다기준 품질 최적화(정확성+효율성+보안)
검색 기반 코드 추천 시스템에서 가장 가독성이 높고 효율적인 코드를 상단에 배치하는 리랭커(Re-ranker)

코드 공개 여부: 공개

코드 저장소 보기

Themis: 유연한 다기준 평가를 위한 강건한 다국어 코드 보상 모델 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Themis: 유연한 다기준 평가를 위한 강건한 다국어 코드 보상 모델 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드