본문으로 건너뛰기

피드 트렌딩 콜로세움

피드 트렌딩 콜로세움

AI Trends

매일 300개 이상의 글로벌 소스에서 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI 트렌딩 기술 태그 AI 용어 사전 커뮤니티 개인정보 처리방침

rmgi

보상-정렬 불량 일반화 지수

고급

Reward-misalignment Generalization Index의 약자로, 보상 해킹 신호가 발생할 때 이것이 얼마나 광범위한 정렬 불량으로 이어지는지 측정하는 실험적 지표이다. 에이전트의 행동 변화를 정량화하여 위험 수준을 판단하는 데 도움을 준다.

관련 아티클 1건

"LLM 에이전트의 꼼수 잡는다" 보상 해킹 탐지 오픈소스 RewardHackWatch 공개

← 용어 사전 전체 보기

보상-정렬 불량 일반화 지수 (rmgi) | AI Trends 용어 사전 | AI Trends