Databricks의 50억 개 시계열 데이터를 처리하는 대규모 모니터링 인프라 재설계

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Databricks는 전 세계 70개 리전에서 발생하는 일일 10조 개의 샘플과 50억 개의 활성 시계열 데이터를 관리하기 위해 모니터링 시스템을 전면 재구축했습니다. 기존 TSDB의 확장성 한계를 극복하고자 오픈소스 Thanos를 커스터마이징한 'Pantheon'을 도입하여 가용성을 높이고 비용을 절감했습니다. 특히 서버리스 워크로드로 인한 고카디널리티 문제는 메트릭 집계 레이어와 레이크하우스 기반의 'Hydra' 플랫폼을 통해 해결했습니다. 이 새로운 구조는 기존 스택 대비 저장 비용을 50배 절감하면서도 엔지니어들에게 강력한 트러블슈팅 기능을 제공합니다.

배경

Prometheus/Thanos 아키텍처에 대한 기본 이해, 시계열 데이터베이스(TSDB) 및 카디널리티 개념, Apache Spark 및 Delta Lake의 기본 지식

대상 독자

대규모 인프라 모니터링 시스템을 설계하는 SRE 및 데이터 엔지니어

의미 / 영향

이 아티클은 전통적인 TSDB만으로는 해결하기 어려운 고카디널리티 문제를 레이크하우스 아키텍처와 결합하여 해결하는 새로운 패러다임을 제시합니다. 특히 데이터 저장 비용을 획기적으로 낮추면서도 분석 유연성을 확보할 수 있음을 증명하여 대규모 관측성(Observability) 시스템 구축의 이정표가 될 것입니다.

섹션별 상세

기존 모니터링 스택은 기하급수적인 데이터 성장과 서버리스 워크로드의 확장을 감당하지 못해 안정성 병목 현상이 발생했습니다. 이를 해결하기 위해 오픈소스 Thanos를 포크한 Pantheon TSDB를 개발하여 전 세계 160개 이상의 인스턴스로 확장했습니다. 현재 이 시스템은 초당 1,000개의 PromQL 쿼리를 처리하며 연간 수백만 달러의 클라우드 비용을 절감하고 있습니다. 결과적으로 인프라 다운타임이 약 5배 감소하는 성과를 거두었습니다.

Pantheon은 메모리, 디스크, 오브젝트 스토리지를 활용하는 계층형 스토리지 아키텍처를 통해 실시간 성능과 장기 저장 효율성을 동시에 확보했습니다. 특히 서버리스 워크로드의 특성에 맞춰 단기 시계열 데이터의 메모리 유지 시간을 30분으로 최적화하여 메모리 사용량을 대폭 줄였습니다. 또한 3중 복제 구조의 StatefulSet을 독립적으로 운영하여 쿼럼을 유지하면서도 안전한 롤아웃과 노드 교체가 가능하도록 설계했습니다.

Pantheon(Thanos 기반)의 전체적인 쓰기/읽기 경로와 제어 평면 아키텍처 다이어그램 — Diagram메트릭 수집 에이전트부터 Ingestion 시스템을 거쳐 Thanos 라우터와 쿼리 시스템으로 이어지는 흐름을 보여줍니다. 특히 단기 및 장기 시계열 데이터를 처리하는 Receive 그룹의 분리와 오브젝트 스토리지로의 업로드 과정을 시각화하여 계층형 저장 구조를 설명합니다.

메트릭의 카디널리티 폭발을 방지하기 위해 Telegraf와 자체 서비스인 Dicer를 결합한 지능형 메트릭 집계 파이프라인을 구축했습니다. 이 시스템은 수백만 개의 입력 카운터를 관리하며 서버리스 시스템의 불필요한 레이블을 제거하여 TSDB의 부하를 차단합니다. 실제 인프라 장애로 인한 5배의 메트릭 서지 발생 시에도 TSDB 부하를 20% 수준으로 억제하며 시스템을 보호했습니다. 이를 통해 모니터링 인프라가 전체 서비스 성장 속도보다 빠르게 비대해지는 것을 방지했습니다.

Telegraf와 Dicer를 활용한 메트릭 집계 파이프라인 구조 — Diagram서버리스 노드에서 발생하는 고카디널리티 데이터를 Dicer를 통해 지능적으로 라우팅하고 Telegraf에서 집계하여 TSDB의 부하를 줄이는 과정을 보여줍니다. 집계된 데이터와 미집계 데이터가 어떻게 구분되어 처리되는지 명확히 나타냅니다.

집계 과정에서 손실되는 상세 디버깅 데이터를 보존하기 위해 Databricks 레이크하우스 기반의 Hydra 플랫폼을 개발했습니다. Hydra는 Apache Spark Structured Streaming과 Auto Loader를 사용하여 전 세계 수백만 노드에서 발생하는 200억 개의 미집계 시계열 데이터를 처리합니다. 오브젝트 스토리지와 Delta Lake를 활용함으로써 Thanos 대비 50배 저렴한 비용으로 데이터를 저장하면서도 5분 이내의 데이터 신선도를 유지합니다. 엔지니어는 Grafana에서 PromQL을 사용하거나 Databricks SQL을 통해 직접 원시 데이터에 접근할 수 있습니다.

레이크하우스 네이티브 디자인을 적용한 Hydra의 데이터 흐름도 — Diagram메트릭 에이전트에서 수집된 원시 데이터가 Spark Structured Streaming을 통해 Delta Lake 테이블로 저장되고, 최종적으로 대화형 쿼리 레이어에서 사용되는 단계를 보여줍니다. 이는 고카디널리티 데이터를 저비용으로 처리하는 Hydra의 핵심 메커니즘을 설명합니다.

실무 Takeaway

대규모 시계열 데이터 처리 시 Thanos의 계층형 스토리지를 활용하고 워크로드 수명에 따라 메모리 정책을 분리하면 비용과 성능을 동시에 최적화할 수 있다.
고카디널리티 메트릭 문제를 해결하기 위해 실시간 알람용 집계 데이터는 TSDB에 저장하고, 상세 분석용 원시 데이터는 레이크하우스(Delta Lake)에 저장하는 이원화 전략이 유효하다.
자체 제어 평면(Control Plane)을 구축하여 오토스케일링과 자가 치유 기능을 자동화함으로써 글로벌 규모의 인프라 운영 공수를 최소화해야 한다.

언급된 리소스

문서CNCF Thanos Project

문서Databricks Careers

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

Prometheus/Thanos 아키텍처에 대한 기본 이해, 시계열 데이터베이스(TSDB) 및 카디널리티 개념, Apache Spark 및 Delta Lake의 기본 지식

대상 독자

대규모 인프라 모니터링 시스템을 설계하는 SRE 및 데이터 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

대규모 시계열 데이터 처리 시 Thanos의 계층형 스토리지를 활용하고 워크로드 수명에 따라 메모리 정책을 분리하면 비용과 성능을 동시에 최적화할 수 있다.
고카디널리티 메트릭 문제를 해결하기 위해 실시간 알람용 집계 데이터는 TSDB에 저장하고, 상세 분석용 원시 데이터는 레이크하우스(Delta Lake)에 저장하는 이원화 전략이 유효하다.
자체 제어 평면(Control Plane)을 구축하여 오토스케일링과 자가 치유 기능을 자동화함으로써 글로벌 규모의 인프라 운영 공수를 최소화해야 한다.

언급된 리소스

문서CNCF Thanos Project

문서Databricks Careers

Databricks의 50억 개 시계열 데이터를 처리하는 대규모 모니터링 인프라 재설계

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

Databricks의 50억 개 시계열 데이터를 처리하는 대규모 모니터링 인프라 재설계

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드