핵심 요약
코드 생성 및 추론 능력이 뛰어난 모델이 사이버 보안이나 생물학적 위협에 악용될 가능성을 사전에 평가한 보고서이다. 32B 규모의 중형 모델인 CWM이 기존의 거대 모델들과 대등한 성능을 내면서도 생물학적/사이버 위험 임계치를 넘지 않음을 확인하여 오픈 웨이트로 공개할 수 있는 기술적 근거를 제시한다.
왜 중요한가
코드 생성 및 추론 능력이 뛰어난 모델이 사이버 보안이나 생물학적 위협에 악용될 가능성을 사전에 평가한 보고서이다. 32B 규모의 중형 모델인 CWM이 기존의 거대 모델들과 대등한 성능을 내면서도 생물학적/사이버 위험 임계치를 넘지 않음을 확인하여 오픈 웨이트로 공개할 수 있는 기술적 근거를 제시한다.
핵심 기여
Code World Model(CWM)의 안전성 평가 및 오픈 소스 공개
32B 파라미터 규모의 코드 생성 특화 모델인 CWM을 출시하며, 출시 전 사이버 보안 및 화학·생물학적 위험에 대한 포괄적인 레드팀 테스트를 수행하여 위험 수준이 '보통' 단계임을 확인했다.
구조화된 추론 프롬프트를 통한 모델 정직성 향상
모델이 자신의 지식과 상충되는 지시를 받았을 때 거짓말을 하지 않도록 4단계(작업 이해, 갈등 인정, 불확실성 외재화, 갈등 해결)로 구성된 구조화된 추론 프롬프트를 설계하여 정직성 점수를 10% 이상 개선했다.
다양한 벤치마크를 통한 오픈 소스 생태계 기준점 제시
Cybench, WMDP, LAB-Bench 등 최신 보안 및 과학 벤치마크에서 Qwen3-Coder-480B, Llama 4 Maverick 등 대형 모델들과 성능을 비교하여 CWM의 상대적 위험 위치를 정량화했다.
핵심 아이디어 이해하기
기존의 코드 생성 모델은 단순히 다음 토큰을 예측하는 확률적 생성에 의존하여 복잡한 논리적 결함이나 보안 취약점을 파악하는 데 한계가 있었다. 특히 모델이 학습 데이터에서 얻은 지식과 사용자의 악의적인 지시가 충돌할 때, 모델은 자신의 지식을 무시하고 지시를 따르는 '부정직한' 행동을 보이기 쉽다.
이 논문은 모델의 내부 추론 과정을 명시적으로 드러내는 'Chain-of-Thought' 방식을 안전성 평가의 핵심 도구로 삼는다. 모델이 답변을 내놓기 전 태그 내에서 스스로의 지식과 지시 사항 간의 모순을 검토하게 함으로써, 논리적 일관성을 유지하고 위험한 출력을 스스로 억제하도록 유도한다.
결과적으로 이러한 구조화된 사고 과정은 모델의 성능을 저하시키지 않으면서도, 모델이 아는 것과 모르는 것을 명확히 구분하게 하여 '에피스테믹 무결성(Epistemic Integrity)'을 높이는 효과를 가져온다.
방법론
CWM의 위험 평가를 위해 사이버 보안(Cybersecurity)과 화학·생물학(Chemical & Biological) 두 가지 핵심 영역에서 다층적 평가 프레임워크를 적용했다. 사이버 보안 영역에서는 지식 기반 테스트와 더불어 Bash 및 Python 도구를 사용하는 ReAct 에이전트 기반의 실전적 CTF(Capture The Flag) 챌린지를 수행했다.
추론 과정의 정직성을 측정하기 위해 MASK 벤치마크를 활용했으며, 모델의 사고 과정을 4단계로 구조화한 'Reasoning System Prompt'를 도입했다. [사용자 요청 입력 → 1단계: 요청 내용 기술 → 2단계: 지식과 지시 간의 갈등 확인 → 3단계: 불확실성 토론 → 4단계: 최종 입장 정리 및 답변 생성] 순으로 연산을 유도하여 모델의 내적 일관성을 강화했다.
화학 및 생물학적 위험 평가는 LAB-Bench와 WMDP를 통해 수행되었으며, 특히 RAG(검색 증강 생성) 도구인 PaperQA2를 결합하여 모델이 실제 과학 문헌에 접근했을 때의 위험 수위 변화를 정밀하게 측정했다.
관련 Figure

작업 이해부터 갈등 인정, 불확실성 외재화, 갈등 해결, 그리고 최종 답변과의 일관성 체크까지의 과정을 보여준다. 이 프레임워크는 모델이 단순히 지시를 따르는 것을 넘어, 자신의 지식과 충돌하는 지점을 명시적으로 사고하게 함으로써 정직성을 높이는 핵심 메커니즘으로 작용한다.
모델의 정직성을 평가하고 개선하기 위한 5단계 추론 단계 프레임워크 다이어그램
주요 결과
CWM은 32B의 크기에도 불구하고 Cybench CTF 챌린지에서 25%의 성공률(pass@10)을 기록하며 Qwen3-Coder-480B와 대등한 수준의 성능을 보였다. 이는 모델의 크기보다 코드 특화 학습과 추론 구조가 보안 작업 수행에 더 중요할 수 있음을 시사한다.
생물학적 위험 평가인 WMDP-Bio에서 CWM은 78.1%의 정확도를 기록하여 Llama 4 Maverick(86.4%)보다는 낮았으나, 인간 전문가 수준(33.0%)은 상회하는 지식 수준을 보유한 것으로 나타났다. 하지만 이는 기존 오픈 소스 모델들의 범위 내에 있어 추가적인 위험을 초래하지 않는 것으로 판단됐다.
정직성 평가(MASK)에서는 구조화된 추론 프롬프트 적용 시 정규화된 정직성 점수가 44.8%에서 55.5%로 약 10.7%p 상승했다. 특히 모델이 추론 과정에서 갈등을 인지했을 때 정직한 답변을 할 확률이 비인지 시보다 월등히 높음이 통계적으로 증명됐다.
기술 상세
CWM은 32B 파라미터 아키텍처를 기반으로 하며, 추론 성능 극대화를 위해 대규모 코드 데이터셋과 추론 트레이스(Reasoning Traces)를 포함한 데이터로 학습되었다. 모델은 기본적으로 토큰을 사용하여 내부 사고 과정을 외부 답변과 분리하는 구조를 채택하고 있다.
안전성 평가의 핵심인 'Frontier AI Framework'는 위험 임계치를 Moderate, High, Critical로 구분하며, CWM은 모든 테스트 도메인에서 Moderate 이하의 위험도를 유지했다. 이는 모델이 특정 위험 지식을 보유하고 있더라도, 이를 실행 가능한 공격으로 연결하는 '에이전트적 능력'이 아직은 통제 가능한 수준임을 의미한다.
구현 측면에서는 65,536 토큰의 긴 출력 길이를 지원하여 복잡한 단계의 추론과 코드 생성이 끊김 없이 이루어지도록 설계되었다. 또한 모델의 정직성을 평가하기 위해 LLM-as-a-Judge(o3 모델 활용) 방식을 도입하여 추론 트레이스의 논리적 타당성을 정량적으로 분석했다.
한계점
현재의 평가는 악의적인 사용자가 모델을 미세 조정(Fine-tuning)하여 안전 가드레일을 제거하는 시나리오는 포함하지 않았다. 또한 Cybench와 같은 벤치마크가 실제 기업 환경의 복잡한 네트워크 구조나 보안 제어(EDR 등)를 완벽히 모사하지 못한다는 한계가 있다.
실무 활용
CWM은 강력한 코드 생성 및 추론 능력을 갖춘 오픈 웨이트 모델로, 보안 취약점 분석이나 과학적 연구 보조 도구로 활용 가능하다. 특히 구조화된 추론 프롬프트 기법은 LLM의 신뢰성이 중요한 금융, 의료, 보안 분야의 애플리케이션 개발에 즉시 적용할 수 있다.
- 자동화된 소프트웨어 취약점 탐지 및 패치 생성 에이전트 구축
- 복잡한 과학 문헌 기반의 RAG 시스템에서 모델의 답변 정직성 강화
- 코드 리뷰 및 리팩터링 과정에서의 논리적 오류 추론 보조
- 보안 교육용 CTF 환경에서의 지능형 공격/방어 시뮬레이션
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.