브리태니커 백과사전, 콘텐츠 '암기' 및 저작권 침해 혐의로 OpenAI 고소

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

브리태니커 백과사전과 사전 출판사 메리엄-웹스터가 OpenAI를 상대로 저작권 침해 소송을 제기했다. 이들은 OpenAI가 자사의 방대한 콘텐츠를 허가 없이 학습시켰으며, GPT-4와 같은 모델이 해당 내용을 '암기'하여 사용자 요청 시 원문과 거의 일치하는 내용을 출력한다고 주장한다. 또한 AI가 정보를 직접 제공함으로써 기존 검색 엔진과 달리 원본 웹사이트로의 유입을 차단하고 비즈니스 모델을 위협하고 있다는 점을 강조했다. 이번 소송은 뉴욕타임스 사례와 유사하게 AI 학습 데이터의 정당성과 모델의 출력물 복제 문제를 다루는 주요 법적 분쟁이 될 전망이다.

배경

LLM 학습 데이터 및 저작권에 대한 기본 이해, GPT-4 등 대형 언어 모델의 작동 원리

대상 독자

AI 정책 담당자, 법률 전문가, LLM 서비스 개발자, 콘텐츠 발행인

의미 / 영향

이번 소송은 AI 모델의 '암기' 현상이 단순한 기술적 결함이 아닌 명백한 저작권 침해 증거로 사용될 수 있음을 시사한다. 향후 AI 기업들은 학습 데이터에 대한 정당한 대가 지불 압박을 더 강하게 받게 될 것이며, 이는 AI 모델 학습 비용 상승과 데이터 라이선싱 시장의 확대로 이어질 가능성이 크다.

섹션별 상세

브리태니커 백과사전과 메리엄-웹스터는 OpenAI가 저작권이 있는 콘텐츠를 무단으로 사용하여 AI 모델을 학습시켰다며 소송을 제기했다.

원고 측은 GPT-4가 브리태니커의 내용을 대량으로 암기하고 있으며 특정 요청에 대해 원문과 토씨 하나 틀리지 않은 '근접 복사본'을 출력한다고 주장하며 증거를 제시했다.

소송장에는 OpenAI 모델의 응답과 브리태니커의 텍스트를 나란히 비교한 사례가 포함되었으며 일부 구절은 단어 하나까지 완벽하게 일치하는 것으로 나타났다.

브리태니커는 OpenAI가 사용자에게 원본 웹사이트 링크를 제공하는 대신 정보를 직접 생성하여 제공함으로써 웹 트래픽을 '잠식(cannibalizing)'하고 있다고 비판했다.

실무 Takeaway

AI 모델이 학습 데이터를 단순히 학습하는 것을 넘어 특정 문구를 그대로 출력하는 '암기(Memorization)' 현상이 법적 분쟁의 핵심 쟁점으로 부상하고 있다.
출판 업계는 AI가 검색 엔진의 역할을 대체하면서 원본 사이트로의 트래픽 유도를 생략하는 '트래픽 잠식' 문제를 심각한 경영 위협으로 간주하고 있다.