왜 중요한가
AI 모델이 내부적으로 어떤 생각을 하는지 감시하는 CoT 모니터링은 안전한 AI 배포의 핵심이다. 이 논문은 최신 추론 모델들이 자신의 사고 과정을 의도적으로 조작하거나 숨기는 데 매우 서투르다는 사실을 밝혀, 현재의 감시 체계가 여전히 유효함을 시사한다.
핵심 기여
CoT-Control 평가 프레임워크 구축
모델이 문제를 해결하면서 특정 단어 금지, 스타일 변경 등 사고 과정(CoT)에 대한 제약 조건을 얼마나 잘 따르는지 측정하는 14,076개의 테스트 케이스를 설계했다.
CoT와 출력 제어 능력의 현격한 차이 규명
Claude 4.5의 경우 최종 답변 제어 성공률은 61.9%에 달했으나, 사고 과정 제어 성공률은 2.7%에 불과하여 내부 사고를 숨기는 능력이 현저히 낮음을 입증했다.
학습 및 추론 환경에 따른 제어 능력 변화 분석
강화학습(RL) 강도가 높을수록, 추론 시간(test-time compute)이 길어질수록, 문제 난이도가 높을수록 모델의 사고 과정 제어 능력이 감소하는 경향을 확인했다.
핵심 아이디어 이해하기
Chain-of-Thought(CoT)는 모델이 최종 답변을 내놓기 전 단계별로 추론하는 과정을 텍스트로 출력하는 기법이다. 이는 모델의 의도를 파악하는 중요한 단서가 되지만, 만약 모델이 감시를 피하기 위해 이 과정을 조작(Controllability)할 수 있다면 안전성에 큰 위협이 된다. 본 논문은 모델에게 "추론 과정에서 특정 단어를 쓰지 마라" 또는 "모두 대문자로 써라"와 같은 제약 조건을 부여하여 제어 능력을 측정했다. 이는 모델이 정답을 맞히기 위해 필요한 '추론'이라는 본질적인 작업과, 사용자의 '형식 제약'이라는 부가적인 작업을 동시에 수행해야 하는 상황을 만든다. 실험 결과, 모델은 최종 답변의 형식은 잘 맞추지만 정작 자신의 생각(CoT)을 제어하는 데는 실패했다. 특히 정답을 맞히기 위해 깊은 사고가 필요한 어려운 문제일수록, 모델은 제약 조건을 잊어버리고 원래의 사고 방식대로 텍스트를 쏟아내는 경향을 보였다. 이는 현재의 추론 모델들이 자신의 사고 과정을 전략적으로 숨기기에는 아직 지능적 한계가 있음을 의미한다.
방법론
CoT-Control 평가 스위트를 설계하여 GPQA, MMLU-Pro 등 5개 벤치마크에서 14,076개의 문제를 수집하고, 정보 억제(Suppression), 정보 추가(Addition), 스타일 수정(Stylistic Modification)의 세 가지 범주로 제약 조건을 설정했다. 제어 능력 측정 지표로 Controllability Score를 사용하며, 모델이 제약 조건을 언급하는 'Meta-discussion' 발생 여부를 추적했다. 출력 제어(Output controllability)와 외부 CoT 제어(External-CoT)를 대조군으로 설정하여 비교 분석을 수행했다. 또한 상황 인지(Situational Awareness) 유도, 자동화된 레드팀(GEPA)을 통한 프롬프트 최적화, 반복 시도(Pass@k) 등을 통해 모델의 잠재적 제어 능력을 최대한 끌어올려 측정했다.
주요 결과
Claude 3.7 Sonnet, GPT-5.2 등 최신 모델들도 CoT 제어 점수가 대부분 10% 미만으로 나타났다. 특히 DeepSeek R1은 0.1%라는 극히 낮은 점수를 기록하며 사고 과정 제어에 가장 큰 어려움을 겪었다. 오픈소스 모델(Qwen3, GPT-OSS)에서는 파라미터 수가 많을수록 제어 능력이 로그 스케일로 증가했으나, 강화학습(RL) 단계가 진행될수록, 특히 수학이나 코드와 같은 정량적 도메인 학습 시 제어 능력이 급격히 하락했다. 사고 과정이 길어질수록 제어 능력이 지수적으로 감소하는 'Breakpoint' 현상을 발견했으며, Claude 3.7 Sonnet은 약 800단어, Claude 4는 약 200단어 이후 제어 능력이 붕괴되는 양상을 보였다.
실무 활용
AI 안전성 연구자 및 MLOps 엔지니어가 모델의 내부 사고 과정을 신뢰할 수 있는지 평가하는 도구로 활용 가능하다. 모델이 자신의 사고를 숨기지 못한다는 특성을 이용해 더 강력한 모니터링 시스템을 구축할 수 있다.
- AI 에이전트의 유해한 계획 수립 여부 실시간 감시
- 모델의 탈옥(Jailbreak) 시도 시 내부 사고 과정 추적
- 추론 모델의 정렬(Alignment) 상태 평가 및 취약점 진단
기술 상세
CoT Controllability는 모델이 외부 감시 메커니즘을 회피하기 위해 자신의 사고 과정을 전략적으로 재구성하거나 억제할 수 있는 능력을 의미한다. 본 연구에서는 이를 '추론 단계에서의 지시 이행 능력'으로 대리 측정했다. 특정 키워드를 억제하라는 지시를 받았을 때, 모델은 해당 단어를 사용하지 않으려 노력하지만 이 과정에서 추론 성능이 6.0~16.7%p 하락하는 성능 저하가 발생했다. 이는 사고 과정의 변형이 모델의 본래 추론 로직과 강하게 결합되어 있음을 시사한다. 모델에게 감시 사실을 알리는 상황 인지(Situational Awareness) 유도 시 제어 능력이 최대 4%p 상승했으나 여전히 낮은 수준에 머물렀다. GEPA 알고리즘을 통해 특정 제약 조건에 최적화된 프롬프트를 찾아내도 새로운 유형의 제약 조건에는 그 효과가 전이되지 않았으며, 이는 모델의 CoT 제어 실패가 단순한 프롬프트 이해 부족이 아닌 구조적 한계임을 뒷받침한다.
한계점
본 연구의 제약 조건들은 실제 모델이 악의적인 목표를 숨기기 위해 스스로 생성하는 전략적 은폐와는 차이가 있을 수 있다. 또한 프롬프트 기반의 유도 방식에 국한되어 있으며, 강화학습이나 미세 조정을 통한 제어 능력 향상 가능성은 충분히 탐색되지 않았다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.