AI 안전 스타트업 Moonbounce, 실시간 콘텐츠 중재를 위한 1,200만 달러 투자 유치

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Moonbounce는 정적인 정책 문서를 실시간으로 실행 가능한 로직으로 변환하는 Policy as Code 기술을 통해 AI 안전 문제를 해결한다. 기존의 수동 검토 방식은 정확도가 50% 수준에 머물고 대응 속도가 늦어 실시간 위협에 취약했으나, 이 시스템은 자체 훈련된 LLM을 사용하여 300ms 이내에 정책 위반 여부를 판단한다. 현재 일일 4,000만 건 이상의 리뷰를 처리하며 Civitai와 Dippy AI 등 주요 AI 플랫폼을 고객사로 확보했다. 이번에 확보한 1,200만 달러의 투자금은 유해한 대화 흐름을 실시간으로 수정하는 Iterative Steering 기술 고도화에 투입될 예정이다.

배경

LLM 기본 개념, 콘텐츠 중재 프로세스 이해

대상 독자

AI 서비스 운영자 및 신뢰와 안전(Trust & Safety) 담당 개발자

의미 / 영향

이 기술은 AI 안전을 사후 검토가 아닌 실시간 제품 기능으로 통합하여 법적 리스크를 줄이고 사용자 신뢰를 높입니다. 특히 Iterative Steering은 유해 대화를 차단하는 대신 긍정적으로 유도함으로써 AI 윤리 문제에 대한 새로운 기술적 해법을 제시합니다.

섹션별 상세

기존의 수동 콘텐츠 중재 방식은 방대한 정책 문서를 사람이 암기하고 짧은 시간 내에 판단해야 하는 구조적 한계를 지녔다. Apple과 Facebook 출신 창업자 Levenson은 수동 검토자의 정확도가 동전 던지기 수준인 50%에 불과하며 대응 시점도 이미 피해가 발생한 이후임을 확인했다. 이러한 지연되고 반응적인 접근 방식은 자본력이 풍부하고 기민한 공격자들을 막아내기에 역부족이다. 따라서 실시간으로 작동하며 정확도가 높은 자동화된 안전 계층의 필요성이 대두되었다.

Moonbounce는 정적인 정책 문서를 실행 가능한 코드로 변환하는 Policy as Code 개념을 도입하여 실시간 집행력을 확보했다. 이 시스템은 자체적으로 훈련된 대규모 언어 모델을 활용하여 고객사의 정책 문서를 학습하고 런타임에 콘텐츠를 평가한다. 분석 결과에 따라 위험도가 높은 콘텐츠를 즉시 차단하거나 추가 검토를 위해 배포 속도를 늦추는 등 유연한 대응이 가능하다. 이를 통해 정책 수립과 실제 집행 사이의 간극을 좁히고 일관된 안전 기준을 적용할 수 있다.

성능 측면에서 Moonbounce는 실시간 서비스에 적합하도록 300ms 이하의 초저지연 응답 속도를 구현했다. 현재 플랫폼은 일일 4,000만 건 이상의 리뷰를 수행하며 1억 명 이상의 일일 활성 사용자를 지원하는 확장성을 입증했다. Civitai, Dippy AI, Moescape와 같은 AI 이미지 및 캐릭터 플랫폼들이 이미 이 솔루션을 도입하여 안전성을 제품의 차별화 요소로 활용하고 있다. 외부 독립 계층으로서 메인 챗봇의 컨텍스트 부하를 공유하지 않으면서도 독립적인 규칙 집행이 가능하다는 점이 핵심이다.

회사는 단순히 유해 콘텐츠를 차단하는 수준을 넘어 대화의 방향을 긍정적으로 유도하는 Iterative Steering 기술을 차세대 핵심 역량으로 개발 중이다. 이는 유해한 주제가 발생했을 때 대화를 단순히 거부하는 대신 실시간으로 프롬프트를 수정하여 AI가 더 도움을 주는 방향으로 응답하도록 강제하는 방식이다. 2024년 발생한 Character AI 관련 비극적 사건과 같은 사례를 방지하기 위해 AI가 공감하는 청취자를 넘어 실질적인 도움을 주는 역할을 수행하도록 유도한다. 이러한 기술적 진보는 AI 안전 가드레일이 단순한 제약 도구에서 사용자 보호를 위한 능동적 지원 도구로 진화함을 의미한다.

실무 Takeaway

Policy as Code를 도입하면 정적인 안전 가이드라인을 300ms 이내에 실행되는 실시간 로직으로 전환하여 AI 서비스의 즉각적인 위협 대응력을 높일 수 있다.
단순 차단 방식의 한계를 극복하기 위해 Iterative Steering 기법을 적용하면 유해한 대화 흐름을 실시간으로 수정하여 사용자 안전과 서비스 연속성을 동시에 확보할 수 있다.
메인 모델과 분리된 제3자 안전 레이어를 구축함으로써 챗봇의 토큰 처리 부하를 줄이고 독립적이고 객관적인 정책 집행 환경을 조성할 수 있다.