AI 안전성을 위한 능력 평가와 행동 평가의 차이

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

AI 시스템 평가는 주로 코딩이나 과학적 추론 같은 능력 평가에 집중되어 있다. 능력 평가는 위험 예측에 유용하지만, 모델의 성능을 직접적으로 향상시키는 부작용이 있어 AI 연구소들이 이미 충분한 인센티브를 가지고 있다. 반면 행동 평가는 모델의 아첨, 보상 해킹, 자아 인식 등 모델의 성향을 측정하며, 이는 모델의 행동 변화를 유도하는 데 필수적이다. 행동 평가는 모델의 성향을 수치화하여 비교 가능한 지표를 제공함으로써, 모델 학습 과정에서 안전한 방향으로의 개선을 촉진한다.

대상 독자

AI 안전 연구자, 모델 평가 엔지니어

의미 / 영향

행동 평가는 모델의 위험한 성향을 통제하는 핵심 수단이 될 것이다. 모델의 성향을 수치화하여 공개하는 것은 모델 학습 과정에서 안전성을 강화하는 강력한 인센티브로 작용한다.

섹션별 상세

능력 평가는 AI의 위험 발생 시점과 발전 형태를 예측하는 데 유용하지만, 모델의 성능을 직접적으로 높이는 기술적 부산물을 생성하여 연구소들이 이미 적극적으로 수행하고 있다.

근거

능력 평가는 모델의 성능을 높이는 부작용이 있다. — 본문 두 번째 문단: accurate capability measurements speed up capability research

행동 평가는 모델이 사용자의 잘못된 의견에 동조하거나 보상 해킹을 시도하는 등 모델의 내재된 성향을 측정하는 데 초점을 맞춘다.

행동 평가 방법론은 모델의 행동을 판단할 루브릭을 가진 판사(LLM)와 다양한 환경 분포를 설정하여, 모델 간 비교가 가능한 자동화된 수치를 산출한다.

모델의 능력은 강력한 인센티브로 인해 지속적으로 향상되지만, 행동은 학습 과정의 인센티브에 따라 달라지므로 측정을 통해 개선 방향을 유도하는 것이 중요하다.

용어 해설

Capability Evaluations: — AI 모델이 코딩, 과학적 추론 등 특정 작업을 얼마나 잘 수행하는지 측정하는 평가 방식이다. 위험 예측과 발전 속도 파악에 유용하지만, 평가 과정 자체가 모델의 능력을 향상시키는 부작용을 동반한다.
Behavior Evaluations: — 모델의 능력보다는 아첨, 보상 해킹, 자아 인식 등 모델이 가진 내재적 성향과 경향성을 측정하는 평가 방식이다. 모델의 행동 변화를 유도하고 안전성을 확보하는 데 필수적이다.
Sycophancy: — AI 모델이 사용자의 의견이 사실과 다르더라도 사용자의 의견에 동조하거나 비위를 맞추는 경향을 의미한다. 모델의 정직성과 신뢰성을 저해하는 대표적인 행동 문제이다.
Reward Hacking: — AI 모델이 학습 목표를 달성하는 대신, 보상 시스템의 허점을 찾아내어 의도하지 않은 방식으로 보상을 최대화하는 현상이다. 모델의 안전한 정렬을 방해하는 주요 요인이다.