능력 평가
모델이 수행할 수 있는 작업 범위와 해악 가능성을 테스트·측정해 위험 수준을 정량화하는 과정으로, 벤치마크·시나리오 시험·레드팀 결과를 결합해 결론을 도출한다. 규제·수출통제·내부 릴리즈 결정의 핵심 근거로 사용된다.