안전성 분류(safety-classification)이란 무엇인가요?

Question

Accepted Answer

입력된 프롬프트가 유해하거나 부적절한 내용을 포함하고 있는지 판단하는 벤치마크 태스크이다. 에이전트가 해킹이나 침입 관련 요청을 안전하다고 잘못 판단했을 때, 과거의 오분류 이력을 피드백으로 받아 정확도를 높이는 성능 지표로 활용된다.

safety-classification