Databricks의 Spark Real-Time Mode와 Lakebase를 활용한 실시간 사기 탐지 시스템 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 사기 탐지 시스템은 배치 처리의 지연이나 별도 스트리밍 엔진 도입으로 인한 운영 복잡성 문제를 겪는다. Spark Real-Time Mode(RTM)는 Spark 엔진 내에서 서브초 단위의 데이터 처리를 지원하여 인프라 복잡성을 제거한다. Lakebase는 관리형 PostgreSQL로서 실시간 피처 저장 및 서빙을 담당하며, MLflow를 통해 모델 학습과 배포를 통합한다. 이 시스템은 P50 지연 시간 40ms 미만, P99 215-392ms의 성능을 기록하며 단일 플랫폼에서 엔드투엔드 파이프라인을 구현한다.

대상 독자

실시간 사기 탐지 시스템을 구축하거나 운영하는 데이터 엔지니어 및 ML 엔지니어

의미 / 영향

이 아키텍처는 별도의 스트리밍 엔진 없이 단일 플랫폼에서 실시간 ML 파이프라인을 구현함으로써 운영 복잡성을 크게 줄인다. 데이터 팀은 인프라 관리 대신 사기 탐지 모델의 성능 개선에 집중할 수 있다.

섹션별 상세

기존 사기 탐지 시스템은 배치 처리의 지연이나 별도의 스트리밍 엔진 도입으로 인해 운영 복잡성이 증가하는 문제를 겪는다. Spark Real-Time Mode(RTM)는 Spark 엔진 내에서 서브초 단위의 데이터 처리를 지원하여 이러한 인프라 복잡성을 제거한다.

실시간 사기 탐지 시스템의 4단계 고수준 아키텍처 다이어그램. — DiagramKafka, Spark RTM, Lakebase, Databricks Apps로 구성된 데이터 흐름을 보여준다. 시스템의 전체적인 구조와 컴포넌트 간의 관계를 시각화한다.

RTM은 상태 기반 변환 및 조인 연산에서 기존 스트리밍 엔진 대비 최대 92% 빠른 처리 속도를 제공한다. Coinbase와 같은 기업은 이를 활용하여 250개 이상의 ML 피처를 계산하고 P99 지연 시간을 100ms 이하로 유지한다.

Kafka 기반 규칙 파이프라인의 처리 흐름도. — DiagramJSON 파싱부터 상태 기반 velocity 추적, 규칙 점수 계산, 라우팅까지의 5단계 파이프라인을 상세히 설명한다.

Lakebase는 Databricks 플랫폼 내의 관리형 PostgreSQL 서비스로, 실시간 피처 저장 및 서빙을 담당한다. Spark Structured Streaming의 foreach sink를 통해 피처를 upsert 방식으로 스트리밍하여 저지연 데이터 접근을 보장한다.

MLflow를 활용하여 오프라인에서 학습된 RandomForest 모델을 Spark UDF로 변환하고 실시간 파이프라인에 적용한다. 이를 통해 정적 규칙 기반 시스템의 한계를 극복하고 비선형 관계를 학습하여 사기 탐지 정확도를 높인다.

Lakebase를 활용한 ML 강화 파이프라인 아키텍처. — Diagram오프라인 ML 학습 루프와 실시간 스코어링 파이프라인이 Lakebase를 통해 어떻게 통합되는지 보여준다.

Databricks Apps(Streamlit 기반)를 통해 실시간 모니터링 대시보드를 제공한다. 분석가는 시스템이 생성한 사기 점수, 결정 내역, 확률 분포를 10초 단위로 자동 갱신되는 화면에서 즉시 확인 가능하다.

실시간 사기 탐지 대시보드 스크린샷. — ScreenshotStreamlit 기반의 Databricks Apps가 제공하는 결정 내역, 사기 확률 분포, 금액 분포 등의 시각화 정보를 보여준다.

엔드투엔드 지연 시간 테스트 결과, P50 지연 시간은 40ms 미만, P99 지연 시간은 215ms에서 392ms 사이로 측정되었다. 이는 외부 인프라 없이 단일 플랫폼만으로 프로덕션 수준의 성능을 달성함을 의미한다.

다양한 TPS 수준에서의 엔드투엔드 지연 시간 테스트 결과 차트. — ChartBaseline부터 Fraud Storm까지 각 부하 상황에서의 P50 및 P99 지연 시간을 비교하여 시스템의 성능 안정성을 입증한다.

용어 해설

Spark Real-Time Mode: — Apache Spark Structured Streaming의 확장 기능으로, 서브초 단위의 데이터 처리를 지원하는 엔진이다. 기존 배치 처리 대비 지연 시간을 획기적으로 줄여 실시간 운영 애플리케이션에 적합하다.
Lakebase: — Databricks 플랫폼 내에 통합된 관리형 PostgreSQL 데이터베이스 서비스이다. 실시간 피처 저장 및 서빙을 위한 저지연 데이터 접근 계층 역할을 수행한다.
Structured Streaming: — Spark SQL 엔진을 기반으로 구축된 확장 가능하고 내결함성을 갖춘 스트림 처리 엔진이다. 배치 처리와 동일한 API를 사용하여 실시간 데이터 파이프라인을 구현한다.

언급된 리소스

문서Real-Time Mode documentation

문서Real-Time Mode GA announcement