Gemma-4-12B-it 비검열 모델에 Claude Opus 4.7 CoT를 증류해 QLoRA로 파인튜닝한 결과 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

작성자는 abliterated 상태로 성능이 저하된 Gemma-4-12B-it에 대해 Claude Opus 4.7의 Chain-of-Thought 추적을 증류해 QLoRA로 Supervised Fine-Tuning을 수행한 모델을 공개했다. lm-evaluation-harness 결과에서 MMLU는 0.635에서 0.739로 회복되었고 GSM8K는 0.496에서 0.920으로 크게 개선되었으며 PPL은 2360에서 580으로 낮아져 일부 지표에서는 클린 베이스를 상회했다. 모델 아티팩트는 Hugging Face에 safetensors와 GGUF로 공개되어 있으며 동일한 평가 파이프라인으로 재현이 가능하다. 이 접근은 guardrails를 복원하지 않으면서도 구조화된 추론 능력을 회복한 사례로서 추가 검증과 안전성 논의가 필요하다.

커뮤니티 반응

작성자는 댓글로 테스트와 출력 공유를 요청했고 모델 파일과 GGUF 바이너리 링크를 제공했다. 공개된 수치와 다운로드 가능한 아티팩트 때문에 관심 있는 사용자가 직접 평가를 수행할 수 있는 조건이 마련되었다. 추가 테스트 결과가 공유되면 성능 회복의 범위와 안전성 영향에 대한 논의가 활발해질 것으로 예상된다.

실용적 조언

원문에 포함된 Hugging Face safetensors 또는 GGUF 링크에서 모델을 내려받아 lm-evaluation-harness로 동일한 벤치마크와 샷 설정을 실행하면 표의 수치를 재현할 수 있다. 이 절차는 모델 성능과 퍼플렉서티 개선을 검증하는 직접적인 방법이며 재현 결과를 댓글로 공유하면 작성자가 요청한 피드백 요구에 부응할 수 있다. 재현 과정에서 모델 로드 환경과 토크나이저 설정이 일치해야 비교가 타당하다.

섹션별 상세

원문 작성자는 공격적인 abliteration으로 인해 모델의 추론 능력이 크게 저하되었다는 문제를 제기했고, 이 문제를 QLoRA 기반의 파인튜닝으로 해결했다고 밝혔다. 구현 방식은 abliterated Gemma-4-12B-it을 고정한 채 QLoRA를 적용해 Claude Opus 4.7에서 추출한 Chain-of-Thought(사고 추적)를 Supervised Fine-Tuning에 사용한 것이다. 저자는 lm-evaluation-harness 결과를 근거로 구조적·심층적 추론 능력(CoT)이 손실된 역량을 회복했다고 보고했다. 이 접근은 guardrails를 복원하지 않고도 성능을 복구하는 방법이라는 점에서 의도가 분명하다.

원문은 구체적인 벤치마크 수치를 제시해 비교를 가능하게 했다. 제시된 표에서 원래의 google/gemma-4-12B-it(클린 베이스)는 MMLU 0.777, GSM8K 0.949, Word Perplexity 895, WikiText-2 bits/byte 1.834을 기록했고 abliterated(Pre-SFT)는 MMLU 0.635, GSM8K 0.496, PPL 2360, bits/byte 2.095로 성능이 악화되었다. QLoRA로 CoT SFT를 적용한 이번 모델은 MMLU 0.739, GSM8K 0.920, PPL 580, bits/byte 1.717을 기록해 여러 지표에서 손실을 상당 부분 회복하거나 베이스를 능가하는 개선을 보였다. 이 수치들은 CoT 기반 SFT가 구체적 수치와 함께 재현 가능한 성능 회복 경로임을 시사한다.

작성자는 결과 재현과 추가 검증을 위해 Hugging Face에 safetensors와 GGUF 형식의 모델 파일을 공개하고 lm-evaluation-harness를 근거로 제시해 재현 절차를 단순화했다. 재현 방법은 모델 파일을 다운로드한 뒤 lm-evaluation-harness로 동일한 벤치마크와 샷 설정을 적용해 측정값을 비교하는 형태로 작동한다. 원문은 실험 도구와 링크를 명시했으므로 다른 연구자와 실무자가 동일 평가를 수행해 결과의 신뢰도를 검증할 수 있다. 이로 인해 커뮤니티 기반의 피드백과 추가 검증이 이어질 가능성이 높다.

언급된 도구

lm-evaluation-harness중립

표준화된 벤치마크(예: MMLU, GSM8K)로 모델 성능을 측정하는 라이브러리

언급된 리소스

GitHubHugging Face safetensors: gemma-4-12B-it-uncensored-opus4.7-cot

GitHubHugging Face GGUF: gemma-4-12B-it-uncensored-opus4.7-cot-GGUF