본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

정렬 어긋남 평가 (misalignment-evals) 용어 설명 | AI Trends

misalignment-evals

정렬 어긋남 평가

고급

AI 모델의 목표나 행동이 인간의 의도나 안전 가이드라인에서 벗어나는 현상을 측정하고 평가하는 프로세스이다. 모델이 잠재적으로 위험하거나 의도치 않은 방향으로 작동하는지 사전에 파악하여 안전성을 확보하는 데 필수적이다.

비슷한 개념

misalignment alignment-verification ai-alignment alignment-research safety-and-alignment agentic-misalignment alignment-faking safety-alignment

← 용어 사전 전체 보기