적대적 견고성
상대방이 자신의 약점을 파악하고 이용하려 할 때도 모델이 원래의 목적을 달성하며 무너지지 않는 능력이다. 예측 가능성을 줄이고 상대의 공격에 대비하는 전략적 방어력을 의미한다.
말만 번지르르한 AI? 전문가가 LLM을 신뢰하지 못하는 진짜 이유