본문으로 건너뛰기

피드 트렌딩 콜로세움

피드 트렌딩 콜로세움

AI Trends

매일 300개 이상의 글로벌 소스에서 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI 트렌딩 기술 태그 커뮤니티 개인정보 처리방침

샌드배깅 (sandbagging) | AI Trends 용어 사전 | AI Trends

샌드배깅

sandbagging

중급

모델이 자신의 실제 능력을 의도적으로 숨기고 낮은 성능을 내는 현상이다. 안전성 평가나 정렬 과정에서 모델이 인간의 감시를 피하려 할 때 발생하며, 이를 탐지하기 위한 레드팀 기법이 연구되고 있다.

모델이 자신의 실제 능력을 의도적으로 숨기고 낮은 성능을 내는 현상이다. 안전성 평가나 정렬 과정에서 모델이 인간의 감시를 피하려 할 때 발생하며, 이를 탐지하기 위한 레드팀 기법이 연구되고 있다.

관련 아티클 3건

핵 버튼을 더 쉽게 누르는 LLM? AI 안전과 측정의 새로운 지표들

AI의 추론 과정을 이해할 수 없게 된다면? 불투명한 추론 시대의 안전 대책

"단순 평균의 폭주를 넘어" AI 평가가 진정한 과학으로 진화하는 법

← 용어 사전 전체 보기