에스컬레이션 사다리
갈등이 저강도의 외교적 마찰에서 시작하여 전면적인 핵전쟁에 이르기까지 단계별로 확대되는 과정을 체계화한 전략적 개념이다. 시뮬레이션에서 LLM이 이 사다리의 상위 단계로 얼마나 빠르게 이동하는지를 통해 모델의 공격성을 측정한다.
핵 버튼을 더 쉽게 누르는 LLM? AI 안전과 측정의 새로운 지표들