Databricks, Scala 및 Java를 위한 서버리스 JAR 및 Databricks Connect 지원 발표

섹션별 상세

서버리스 JAR는 Scala와 Java 개발자가 인프라 관리 부담 없이 프로덕션급 Spark 파이프라인을 구축할 수 있게 한다. 클러스터 프로비저닝이나 용량 계획이 필요 없으며, Databricks가 인프라 확장 및 성능 최적화를 자동으로 처리하여 개발자가 코드 작성에만 집중할 수 있는 환경을 제공한다.

Spark 4(Scala 2.13) 및 Spark Connect 아키텍처를 채택하여 사용자 코드와 엔진을 분리했다. 이를 통해 특정 런타임 버전에 종속되지 않는 '버전리스(Versionless)' 업그레이드가 가능해졌으며, 종속성 충돌 문제를 해결하고 Lakeguard를 통한 세밀한 접근 제어를 지원한다.

Databricks Connect를 사용하면 IntelliJ나 Cursor 같은 IDE에서 서버리스 컴퓨팅에 연결하여 대화형으로 코드를 작성하고 디버깅할 수 있다. 로컬 환경에서 실제 운영 데이터와 유사한 환경을 대상으로 즉각적인 테스트가 가능하여 개발 사이클이 획기적으로 단축된다.

서버리스 JAR 배포를 위해서는 Spark 4 및 Spark Connect용으로 JAR를 컴파일한 후 Unity Catalog 볼륨이나 워크스페이스 폴더에 업로드해야 한다. 이후 Lakeflow Jobs에서 서버리스 컴퓨팅을 선택하여 작업을 생성하면 즉시 실행 가능한 파이프라인이 완성된다.

이미지 분석

Chart
Databricks가 클라우드 DBMS 시장에서 '리더(Leader)' 그룹에 위치하고 있음을 보여준다. 이는 해당 기술 블로그에서 소개하는 서버리스 기술이 시장 선도적인 위치에서 제공되고 있음을 시사한다.
2025년 가트너 매직 쿼드런트 클라우드 데이터베이스 관리 시스템 부문 차트이다.

용어 해설

스파크 커넥트(Spark Connect): — Spark 클라이언트 애플리케이션과 Spark 서버를 분리하여 원격으로 연결할 수 있게 해주는 아키텍처이다. 이를 통해 로컬 IDE에서 서버의 컴퓨팅 자원을 활용해 코드를 실행하거나 디버깅할 수 있으며, 클라이언트와 서버 간의 라이브러리 충돌 문제를 해결한다.
서버리스 컴퓨팅(Serverless Compute): — 사용자가 서버 인프라를 직접 관리하거나 프로비저닝하지 않고도 코드를 실행할 수 있는 클라우드 컴퓨팅 모델이다. 실행에 필요한 자원이 자동으로 할당되고 작업이 끝나면 회수되며, 실제 사용한 컴퓨팅 시간에 대해서만 비용을 지불한다.
유니티 카탈로그(Unity Catalog): — Databricks 플랫폼 내에서 데이터, 모델, 파일 등 모든 데이터 자산에 대한 통합 거버넌스를 제공하는 솔루션이다. 중앙 집중식 접근 제어, 데이터 계보 추적, 보안 정책 적용을 통해 데이터 레이크하우스의 관리 효율성을 높인다.
레이크가드(Lakeguard): — Databricks에서 제공하는 보안 엔진으로, 데이터에 대한 세밀한 접근 제어를 가능하게 한다. 행 수준 필터링이나 속성 기반 접근 제어(ABAC)를 서버 측에서 직접 강제하여 데이터 보안을 강화하는 역할을 수행한다.

기술

Databricks
Apache Spark 4
Scala
Java
IntelliJ
Cursor
Unity Catalog

활용 사례

Spark 데이터 파이프라인 구축
IDE 기반 대화형 Spark 개발
비용 최적화된 배치 작업 실행

언급된 리소스

튜토리얼Run Scala code on Serverless compute

섹션별 상세

이미지 분석

용어 해설

스파크 커넥트(Spark Connect): — Spark 클라이언트 애플리케이션과 Spark 서버를 분리하여 원격으로 연결할 수 있게 해주는 아키텍처이다. 이를 통해 로컬 IDE에서 서버의 컴퓨팅 자원을 활용해 코드를 실행하거나 디버깅할 수 있으며, 클라이언트와 서버 간의 라이브러리 충돌 문제를 해결한다.
서버리스 컴퓨팅(Serverless Compute): — 사용자가 서버 인프라를 직접 관리하거나 프로비저닝하지 않고도 코드를 실행할 수 있는 클라우드 컴퓨팅 모델이다. 실행에 필요한 자원이 자동으로 할당되고 작업이 끝나면 회수되며, 실제 사용한 컴퓨팅 시간에 대해서만 비용을 지불한다.
유니티 카탈로그(Unity Catalog): — Databricks 플랫폼 내에서 데이터, 모델, 파일 등 모든 데이터 자산에 대한 통합 거버넌스를 제공하는 솔루션이다. 중앙 집중식 접근 제어, 데이터 계보 추적, 보안 정책 적용을 통해 데이터 레이크하우스의 관리 효율성을 높인다.
레이크가드(Lakeguard): — Databricks에서 제공하는 보안 엔진으로, 데이터에 대한 세밀한 접근 제어를 가능하게 한다. 행 수준 필터링이나 속성 기반 접근 제어(ABAC)를 서버 측에서 직접 강제하여 데이터 보안을 강화하는 역할을 수행한다.

기술

Databricks
Apache Spark 4
Scala
Java
IntelliJ
Cursor
Unity Catalog

활용 사례

Spark 데이터 파이프라인 구축
IDE 기반 대화형 Spark 개발
비용 최적화된 배치 작업 실행

언급된 리소스

튜토리얼Run Scala code on Serverless compute

Databricks, Scala 및 Java를 위한 서버리스 JAR 및 Databricks Connect 지원 발표

섹션별 상세

이미지 분석

용어 해설

기술

활용 사례

언급된 리소스

Databricks, Scala 및 Java를 위한 서버리스 JAR 및 Databricks Connect 지원 발표

섹션별 상세

이미지 분석

용어 해설

기술

활용 사례

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드