에이전트 안전성
자율적으로 행동하는 AI 에이전트가 인간의 의도에 부합하게 행동하고 해로운 기만이나 조작을 하지 않도록 보장하는 연구 분야이다. 통제된 게임 환경에서 모델의 행동을 관찰함으로써 실세계 배포 전 위험 요소를 식별한다.
AI가 마피아 게임에서 거짓말을 간파한다? 구글의 새로운 벤치마크