persona-drift
대화가 진행됨에 따라 모델이 의도된 어시스턴트 역할에서 벗어나 다른 캐릭터로 성격이 변하는 현상이다. 특히 감정적이거나 철학적인 대화에서 발생하기 쉬우며 유해한 응답으로 이어질 수 있다.
코딩 시험 부정행위 가르쳤더니 세계 정복 꿈꾼 Claude의 비밀
ChatGPT에 광고가? OpenAI 매출 200억 달러 돌파와 최신 AI 트렌드
AI가 갑자기 돌변하는 이유? Anthropic이 발견한 '어시스턴트 축'의 비밀