핵심 요약
특정 국가의 언어나 전문 분야처럼 기존 안전성 벤치마크가 없는 환경에서 LLM을 도입해야 하는 실무자들에게 필수적인 평가 방법론을 제시한다. 정답 레이블 없이도 통계적 검증 체인을 통해 모델 간의 안전성을 신뢰할 수 있는 수치로 비교할 수 있게 해준다.
왜 중요한가
특정 국가의 언어나 전문 분야처럼 기존 안전성 벤치마크가 없는 환경에서 LLM을 도입해야 하는 실무자들에게 필수적인 평가 방법론을 제시한다. 정답 레이블 없이도 통계적 검증 체인을 통해 모델 간의 안전성을 신뢰할 수 있는 수치로 비교할 수 있게 해준다.
핵심 기여
벤치마크 없는 비교 안전성 점수화 개념 정립
정답 레이블이 없는 상황에서 모델 간 안전성을 비교해야 하는 시나리오를 공식화하고, 이를 위한 평가 계약(Claim Contract)과 검증 체인을 정의했다.
SimpleAudit 프레임워크 개발
로컬 환경에서 실행 가능한 오픈소스 파이썬 라이브러리로, 다회차 상호작용을 통해 안전성 점수, 델타, 불확실성을 보고하는 도구를 구현했다.
도구적 타당성 검증 체인 제안
반응성(AUROC), 타겟 민감도(분산 분해), 재현성(부트스트랩 안정성)을 통해 정답지 없이도 평가 도구의 신뢰성을 입증하는 방법론을 확립했다.
노르웨이 공공 부문 조달 사례 연구
Borealis와 Gemma 3 모델을 노르웨이 특정 시나리오에서 비교하여, 안전성 순위가 고정된 것이 아니라 리스크 측정 방식에 따라 달라질 수 있음을 실증했다.
핵심 아이디어 이해하기
기존의 LLM 평가는 사람이 미리 달아놓은 정답(Ground-truth)과 모델의 답변이 얼마나 일치하는지를 손실 함수(Loss function)나 정확도 개념으로 측정해왔다. 하지만 노르웨이어나 특정 규제 환경처럼 정답 데이터셋 자체가 없는 경우, 평가 도구가 내놓는 점수가 모델의 실제 성능인지 아니면 평가 시스템 자체의 오류(Artifact)인지 구분할 수 없다는 한계가 있다.
이 논문은 평가 도구의 유효성을 '도구적 타당성 체인'이라는 개념으로 해결한다. 먼저, 안전한 모델과 의도적으로 안전 장치를 제거한 모델(Abliterated model)을 비교하여 도구가 이 둘을 명확히 구분해내는지(Responsiveness) 확인한다. 이는 분류 문제에서 임베딩 공간의 거리를 측정하는 것과 유사한 논리다.
그다음, 평가 결과에서 발생하는 변동성(Variance)이 판정자(Judge)의 주관이나 감사자(Auditor)의 질문 방식이 아닌, 오직 타겟 모델의 차이에서 기인하는지 통계적으로 분해하여 검증한다. 마지막으로 여러 번 반복 실행했을 때 점수가 일정하게 수렴하는지 확인하여 재현성을 확보한다. 결과적으로 정답지가 없어도 통계적 장치들을 통해 '이 점수는 믿을만하다'는 근거를 단계적으로 구축하는 원리다.
방법론
SimpleAudit은 타겟 모델(T), 감사자(A), 판정자(J)라는 세 가지 독립적인 역할을 정의하고 다회차(Multi-turn) 상호작용을 수행한다. 감사자가 프로브(Probe)를 생성하면 타겟이 응답하고, 판정자가 전체 대화 기록을 분석하여 0~4점 사이의 서술형 등급(Ordinal Severity)을 부여한다.
수학적으로는 각 시나리오의 점수 s_i를 [0, 100] 스케일로 선형 매핑한 후 전체 팩의 평균을 내어 최종 Score를 산출한다. [개별 시나리오 점수 합산 → 전체 시나리오 수 N으로 나눔 → 0~100 사이의 평균 점수 도출] 과정을 거치며, 심각한 실패 사례를 포착하기 위해 임계값 미만 비율인 Critical Rate(CR)를 별도로 계산한다.
검증 단계에서는 분산 분석(ANOVA)의 일종인 Type II sums of squares를 사용하여 점수 변동을 분석한다. [전체 점수 변동량 입력 → 타겟, 감사자, 판정자 요인별 기여도 계산 → Partial η² 산출] 과정을 통해 타겟 모델이 변동의 50% 이상을 차지하는지 확인하여 도구의 민감도를 입증한다.
관련 Figure

타겟 모델이 0.518의 가장 높은 Partial η² 값을 가져 변동의 주된 원인임을 보여준다. 이는 평가 결과가 도구의 결함이 아닌 모델의 특성을 반영한다는 증거다.
평가 점수의 분산이 타겟, 감사자, 판정자 중 어디에서 기인하는지 분석한 결과이다.
주요 결과
실험 결과, SimpleAudit은 안전 모델과 안전 장치 제거 모델을 AUROC 0.89~1.00 수준으로 완벽에 가깝게 분리해냈다. 분산 분석 결과 타겟 모델의 정체성이 전체 변동의 약 52%(η² ≈ 0.52)를 차지하여 판정자(0.25)나 감사자(0.28)보다 지배적인 요인임이 확인됐다.
재현성 측면에서는 10회의 반복 실행(Rerun)만으로도 점수가 0~100 스케일에서 약 1포인트 이내의 오차 범위로 안정화되었다. 노르웨이 조달 사례 연구에서는 Borealis 모델이 Gemma 3 대비 전반적으로 높은 안전성 점수를 보였으나, 의료(Healthcare) 카테고리에서는 그 차이가 줄어드는 등 카테고리별로 상이한 결과가 나타났다.
관련 Figure

M(35B)과 L(122B) 모델은 XL 모델과 약 10% 내외의 낮은 Critical Miss 비율을 보이며 로컬 판정자로서 적합함을 보여준다. 반면 XS 모델은 44%의 높은 미스율을 기록하여 부적합함이 드러난다.
로컬 판정자 모델(XS, M, L)과 프론티어 모델(XL) 간의 판정 일치도를 나타낸 차트이다.

모든 크기(XS, S, M)에서 두 그룹의 점수 분포가 명확히 분리되어, SimpleAudit이 안전성 차이를 효과적으로 감지하고 있음을 입증한다.
안전한 모델(Safe)과 안전 장치가 제거된 모델(Unsafe)의 점수 분포를 타겟 크기별로 비교한 박스 플롯이다.
기술 상세
SimpleAudit 아키텍처는 로컬 실행을 우선으로 설계되어 데이터 외부 유출 없이 안전성 감사가 가능하다. 판정자(Judge) 모델의 경우 Qwen 3.5 122B 수준의 모델이 GPT-5와 같은 프론티어 모델과 90% 이상의 판정 일치도를 보여 로컬 판정자로서의 효용성을 입증했다.
연구진은 감사자(Auditor)의 능력이 평가 결과에 가장 큰 영향을 미치는 비타겟 변수임을 발견했다. 감사자가 너무 약하면 모델의 결함을 찾아내지 못하고, 너무 강하면 모든 모델의 점수를 바닥으로 떨어뜨려 비교 변별력을 상실하게 만든다. 따라서 타겟 모델의 수준에 맞는 감사자 모델 선정이 핵심적인 설계 요소이다.
또한, 절대적인 점수보다는 두 모델 간의 차이인 델타(Delta)와 불확실성 구간을 함께 보고하는 것이 중요하다. 판정자 간의 절대적 기준 차이는 델타 계산 과정에서 상쇄(Cancel out)되지만, 감사자의 질문 방식 차이는 상쇄되지 않고 결과에 직접적인 영향을 미치기 때문이다.
한계점
이 방법론은 모델의 거부 학습(Refusal-trained) 차이를 테스트하는 데 집중되어 있으며, 모든 종류의 불안전한 행동을 포착하지는 못한다. 또한 시나리오 팩이 너무 좁게 구성될 경우 불완전한 결론을 내릴 위험이 있으며, 평가 결과의 타당성은 여전히 해당 도메인 전문가의 검토를 필요로 한다.
실무 활용
기존 벤치마크가 없는 언어나 도메인에서 LLM을 도입하려는 기업이나 공공기관이 모델의 안전성을 객관적으로 비교 평가할 때 즉시 활용 가능하다.
- 노르웨이어 등 소수 언어 기반 서비스의 안전성 가드레일 검증
- 공공기관/의료/금융 등 특정 규제 도메인용 모델 도입 시 비교 평가
- 모델 업데이트 시 기존 안전성 수준 유지 여부를 확인하는 회귀 테스트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.