red-teaming
조직이나 시스템의 보안 취약점을 찾기 위해 적대적인 관점에서 공격을 시뮬레이션하는 전문 팀 또는 활동이다. AI 분야에서는 모델이 유해한 답변을 생성하거나 보안을 우회하는 경로를 찾는 테스트 과정을 의미한다.
GPT-5의 적은 연산력이 아닌 AI 자신이다: 500달러 현상금의 AI 탐지 챌린지
소리 지르면 뚫리는 AI 보안? DystopiaBench로 증명된 RLHF의 한계
"해로운 결과를 직접 만들어봐야 할까?" AI 레드팀의 윤리적 경계
자율형 AI 에이전트가 시스템을 장악한다면? 11가지 보안 취약점 발견
Anthropic RSP 3.0 공개: AI 위험 관리의 투명성과 실행력 강화