핵심 요약
데이터 규모가 커짐에 따라 수동 테이블 튜닝은 운영상 큰 부담이 된다. 데이터브릭스의 예측 최적화(Predictive Optimization)는 Unity Catalog 관리 테이블을 대상으로 데이터 레이아웃, 통계 유지보수, 스토리지 정리를 자동화하여 이 문제를 해결한다. 2025년에는 기본 활성화로 전환되어 쿼리 속도를 22% 향상시키고 수천만 달러의 비용 절감을 달성했다. 2026년에는 자동 행 삭제(Auto-TTL)와 거버넌스 허브를 통한 가시성 강화로 확장을 예고하고 있다.
배경
Unity Catalog, Delta Lake
대상 독자
데이터 엔지니어 및 플랫폼 운영자
의미 / 영향
데이터 관리 패러다임이 수동 튜닝에서 자율 최적화로 전환되어 운영 효율성을 극대화하고 인프라 비용을 획기적으로 낮춘다.
섹션별 상세
예측 최적화(PO)는 이제 모든 새로운 Unity Catalog 관리 테이블에서 기본적으로 실행된다. 엑사바이트 단위의 데이터를 정리하여 수천만 달러를 절감했으며, 수백 페타바이트의 데이터를 압축 및 클러스터링하여 쿼리 성능을 개선했다. 플랫폼 지능형 계층으로서 워크로드 패턴을 분석하고 최적의 유지보수 작업을 자동으로 결정한다.
자동 통계(Automatic Statistics) 기능을 통해 쿼리 패턴을 분석하고 중요한 컬럼의 통계를 자동으로 최신화한다. 'Stats-on-write' 방식은 데이터를 쓰는 시점에 통계를 수집하여 기존 ANALYZE 명령보다 7-10배 빠른 성능을 보여준다. 실제 고객 워크로드에서 쿼리 속도를 최대 22% 향상시켰으며 수동 관리 비용을 제거했다.
VACUUM 성능이 대폭 개선되어 실행 속도는 최대 6배 빨라졌고 컴퓨팅 비용은 4배 절감되었다. Delta 트랜잭션 로그를 활용해 삭제할 파일을 직접 식별함으로써 비용이 많이 드는 디렉토리 리스팅 작업을 피한다. 엔진은 로그 기반 접근 방식과 전체 스캔 방식 중 최적의 경로를 동적으로 선택하여 스토리지 효율을 극대화한다.
자동 리퀴드 클러스터링(Automatic Liquid Clustering)은 워크로드 텔레메트리를 분석해 최적의 클러스터링 키를 자동으로 선택한다. 필터 표현식과 스캔된 파일 크기 등의 지표를 모델링하여 데이터 스캔을 최소화하는 전략을 적용한다. 사용자의 수동 튜닝 없이도 데이터 레이아웃을 최적의 상태로 유지하여 쿼리 성능을 보장한다.
2026년 로드맵에는 특정 기간이 지난 데이터를 자동으로 삭제하는 Auto-TTL 기능이 포함된다. 또한 데이터 거버넌스 허브를 통해 PO의 작업 내용과 ROI를 시각적으로 확인할 수 있는 대시보드가 제공될 예정이다. 이를 통해 압축된 바이트 수나 절감된 스토리지 비용을 명확하게 파악하고 비즈니스 가치를 입증할 수 있다.
이미지 분석

데이터브릭스가 실행 능력과 비전 완성도 측면에서 리더(Leader) 위치에 있음을 보여준다. 이는 플랫폼의 기술적 우위와 시장 영향력을 증명하는 지표로 활용된다.
클라우드 데이터베이스 관리 시스템 분야의 가트너 매직 쿼드런트 차트이다.
</> 코드 예제 포함
실무 Takeaway
- Unity Catalog 관리 테이블을 사용하면 별도의 설정 없이도 자율 최적화 혜택을 누릴 수 있다.
- 수동 ANALYZE나 OPTIMIZE 예약 작업을 제거하여 운영 부담을 줄이고 쿼리 성능을 20% 이상 개선할 수 있다.
- 2026년에 도입될 Auto-TTL을 활용해 데이터 보존 정책 관리를 자동화하고 스토리지 비용을 선제적으로 관리해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료