입력과 모델 응답의 관련성 판정 (relatedness-dimension) 용어 설명 | AI Trends
relatedness-dimension
입력과 모델 응답의 관련성 판정
중급
Relatedness Dimension은 모델이 주어진 요청을 실제로 이해했는지를 판별하는 평가 축이다. 모델의 응답이 무해하더라도 입력을 오해해서 생성된 경우를 'Safe by Accident'로 구분하여 진짜 거부 행동과 구분하는 데 핵심적이다. 본 연구는 관련성 여부를 결합해 안전성 등급(Safe, Safe by Accident, Controversial, Unsafe)을 산출했다.