에이전트 안전성(agentic-safety)이란 무엇인가요?

Question

Accepted Answer

자율적으로 행동하는 AI 에이전트가 인간의 의도에 부합하게 행동하고 해로운 기만이나 조작을 하지 않도록 보장하는 연구 분야이다. 통제된 게임 환경에서 모델의 행동을 관찰함으로써 실세계 배포 전 위험 요소를 식별한다.

agentic-safety