비디오 감시 스타트업 Conntour, 자연어 검색 기반 보안 플랫폼으로 700만 달러 투자 유치

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 감시 시스템은 사전 정의된 규칙에 의존해 유연성이 낮았으나, Conntour는 비전-언어 모델(VLM)을 도입해 자연어 쿼리로 특정 객체나 상황을 실시간 검색한다. 사용자가 "로비에서 운동화를 신은 사람이 가방을 전달하는 장면"을 검색하면 시스템은 수천 개의 피드를 분석해 관련 영상과 텍스트 보고서를 즉시 생성한다. 특히 단일 소비자용 GPU인 Nvidia RTX 4090으로 최대 50개의 카메라 피드를 처리하는 높은 효율성을 달성하여 대규모 인프라 확장이 용이하다. 싱가포르 중앙마약국 등 정부 기관을 고객으로 확보하며 기술력을 입증했고, 최근 General Catalyst 등으로부터 700만 달러의 시드 투자를 성공적으로 마무리했다.

배경

컴퓨터 비전 기초 지식, 비전-언어 모델(VLM)의 기본 개념, GPU 가속 및 추론 효율화에 대한 이해

대상 독자

물리 보안 시스템 관리자, AI 기반 영상 분석 솔루션 개발자, 스마트 시티 인프라 기획자

의미 / 영향

비전-언어 모델의 효율화로 인해 대규모 영상 감시의 자동화가 가속화될 것이며, 이는 공공 안전 향상과 동시에 프라이버시 침해 논란을 심화시킬 수 있다. 특히 소비자용 하드웨어에서의 높은 처리 효율은 중소 규모 사업장까지 AI 보안 도입 문턱을 낮추는 계기가 될 것이다.

섹션별 상세

기존 보안 시스템은 움직임 감지나 사전 설정된 객체 인식에 국한되어 복잡한 상황 파악이 어려웠다. Conntour는 비전-언어 모델을 결합해 사용자가 일상적인 언어로 질문하면 영상 내 인물, 물체, 행동을 식별하여 결과를 반환한다. 가방을 바닥에 두고 가는 사람과 같은 구체적인 묘사로 실시간 및 녹화 영상을 검색할 수 있어 보안 요원의 업무 효율을 극대화한다. 이는 단순한 감시를 넘어 비디오 데이터에 대한 구글식 검색 엔진 역할을 수행함을 의미한다.

Conntour 플랫폼에서 '바닥에 가방을 두고 가는 사람'을 검색한 결과 화면이다. — Screenshot자연어 쿼리가 실제 영상 피드와 어떻게 매칭되는지 보여주며, 우측에는 유사도 기반의 관련 이벤트 목록이 신뢰도 점수와 함께 나열되어 있다. 사용자가 텍스트로 질문하고 시각적 증거를 즉시 확인하는 인터페이스 구조를 명확히 전달한다.

수천 개의 카메라 피드를 AI로 실시간 분석하는 것은 막대한 컴퓨팅 자원을 요구하는 비용 문제에 직면한다. Conntour는 다중 모델과 로직 시스템을 최적화하여 쿼리별로 최소한의 자원을 사용하는 알고리즘을 구현함으로써 효율성을 높였다. 실제 테스트 결과 Nvidia RTX 4090 한 장으로 최대 50개의 피드를 동시에 모니터링할 수 있는 수준의 성능을 확보했다. 이러한 확장성은 대규모 시설이나 도시 단위의 감시 시스템을 구축하려는 기업 및 정부 기관에 강력한 비용 절감 혜택을 제공한다.

보안 데이터의 민감성으로 인해 클라우드 기반 AI 서비스 도입을 꺼리는 고객들이 많다. Conntour는 온프레미스, 클라우드, 또는 하이브리드 방식을 모두 지원하여 고객의 보안 요구사항에 유연하게 대응한다. 또한 저해상도나 악조건의 영상에서 발생할 수 있는 오류를 방지하기 위해 검색 결과와 함께 신뢰도 점수를 제공한다. 이는 사용자가 AI의 판단 결과를 비판적으로 수용하고 실제 위협 여부를 정확히 판단할 수 있도록 돕는 안전장치 역할을 한다.

실무 Takeaway

비전-언어 모델(VLM)을 활용하면 기존의 규칙 기반 감시 시스템이 놓치기 쉬운 복잡한 행동 패턴을 자연어 검색으로 정교하게 찾아낼 수 있다.
단일 Nvidia RTX 4090 GPU로 50개 피드를 처리하는 Conntour의 사례처럼, 모델 최적화와 쿼리별 로직 분배를 통해 AI 보안 시스템의 운영 비용을 획기적으로 낮출 수 있다.
보안 및 감시 분야의 AI 도입 시 데이터 프라이버시를 위해 온프레미스 배포 옵션과 AI 판단의 불확실성을 보완하는 신뢰도 점수 제공이 필수적이다.