주요 AI 모델들의 베스트셀러 무단 복제: '암기' 현상이 저작권 방어 논리를 뒤흔들다

섹션별 상세

스탠퍼드와 예일 대학교 연구진은 OpenAI, Google, Anthropic, xAI의 모델들을 대상으로 전략적 프롬프트를 사용하여 '왕좌의 게임', '헝거 게임', '호빗' 등 13권의 소설 내용을 추출하는 데 성공했다. 특히 Google의 Gemini 2.5는 '해리포터와 마법사의 돌' 내용의 76.8%를, xAI의 Grok 3는 70.3%를 높은 정확도로 재현했다.

Anthropic의 Claude 3.7 Sonnet의 경우, 안전 가드레일을 무시하도록 만드는 '탈옥(Jailbreaking)' 기법을 통해 소설 한 권의 거의 전체 내용을 원문 그대로 추출할 수 있음이 확인됐다. 이는 가드레일이 있는 폐쇄형 모델은 대규모 암기 현상에서 안전할 것이라는 기존의 예측을 뒤집는 결과다.

AI 업계는 그동안 모델 내부에 학습 데이터의 복사본이 존재하지 않으며, 저작물을 활용한 학습은 '공정 이용(Fair Use)'에 해당한다고 주장해 왔다. 그러나 이번 연구 결과는 모델이 데이터를 단순히 학습하는 것을 넘어 실질적으로 '저장'하고 있음을 시사하며, 이는 저작권 침해 소송에서 AI 기업들에게 불리한 증거로 작용할 가능성이 크다.

독일 법원은 최근 OpenAI가 노래 가사를 암기하여 출력한 것에 대해 저작권 침해 판결을 내렸으며, 미국 법원 또한 해적판 저작물을 저장하는 행위를 침해로 간주하여 Anthropic이 15억 달러의 합의금을 지불하게 한 전례가 있다. 이번 연구는 이러한 법적 분쟁에서 '암기'가 단순한 기술적 오류가 아닌 구조적 문제임을 보여준다.

용어 해설

암기(Memorization): — AI 모델이 학습 데이터의 특정 샘플을 거의 그대로 기억하여 출력하는 현상이다. 모델이 데이터를 단순히 학습하는 것을 넘어 실질적으로 복제본을 저장하고 있음을 시사하여 저작권법상 중요한 쟁점이 된다.
탈옥(Jailbreaking): — AI 모델의 안전 가이드라인을 우회하여 금지된 콘텐츠를 생성하도록 유도하는 프롬프트 기법이다. 이를 통해 모델 내부에 숨겨진 학습 데이터를 강제로 추출하거나 제한된 기능을 활성화할 수 있다.
공정 이용(Fair Use): — 저작권자의 허락 없이도 저작물을 교육, 연구, 비평 등의 목적으로 제한적으로 사용할 수 있도록 허용하는 법적 개념이다. AI 기업들은 모델 학습이 저작물을 변형하여 새로운 가치를 창출하므로 이에 해당한다고 주장한다.
가드레일(Guardrails): — AI 모델이 부적절하거나 유해한 정보, 혹은 저작권이 있는 데이터를 생성하지 못하도록 설정된 안전 장치이다. 필터링 시스템이나 정렬 기법을 통해 모델의 출력을 제어하는 역할을 한다.

기술

Gemini 2.5
Grok 3
Claude 3.7 Sonnet
Llama

활용 사례

저작권 침해 탐지
데이터 유출 방지 가드레일 테스트
AI 법적 리스크 관리

섹션별 상세

용어 해설

탈옥(Jailbreaking): — AI 모델의 안전 가이드라인을 우회하여 금지된 콘텐츠를 생성하도록 유도하는 프롬프트 기법이다. 이를 통해 모델 내부에 숨겨진 학습 데이터를 강제로 추출하거나 제한된 기능을 활성화할 수 있다.

기술

Gemini 2.5
Grok 3
Claude 3.7 Sonnet
Llama

활용 사례

저작권 침해 탐지
데이터 유출 방지 가드레일 테스트
AI 법적 리스크 관리

주요 AI 모델들의 베스트셀러 무단 복제: '암기' 현상이 저작권 방어 논리를 뒤흔들다

섹션별 상세

용어 해설

기술

활용 사례

주요 AI 모델들의 베스트셀러 무단 복제: '암기' 현상이 저작권 방어 논리를 뒤흔들다

섹션별 상세

용어 해설

기술

활용 사례

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드