DatabricksAI/ML

Databricks 최신 업데이트: 데이터 커넥터, AI 어시스턴트 및 파운데이션 모델 통합

Databricks의 최신 데이터 커넥터, AI 어시스턴트 스킬, Spark 파이프라인의 foreachBatch 지원 및 파운데이션 모델 API 업데이트를 통해 데이터와 AI 통합 워크플로우를 강화하는 방법을 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

신규 커넥터와 AI 어시스턴트의 확장성, 그리고 파운데이션 모델 API의 통합을 통해 데이터 수집부터 AI 에이전트 구축까지의 전 과정을 단일 플랫폼에서 효율적으로 관리할 수 있다.

배경

Databricks 플랫폼의 최근 60일간 주요 업데이트 사항을 공유하고, 이를 실제 아키텍처에 어떻게 적용할 수 있는지 논의하는 영상이다.

대상 독자

데이터 엔지니어, ML 엔지니어, 솔루션 아키텍트 및 Databricks 사용자

의미 / 영향

데이터 엔지니어링과 AI 모델 서빙의 경계가 더욱 허물어지며, 단일 플랫폼 내에서 데이터 수집부터 RAG 시스템 구축, 모델 모니터링까지 전체 생명주기를 관리하는 것이 표준이 될 것이다. 특히 서버리스 기반의 자동 확장 기능과 오픈 포맷 호환성 강화는 인프라 관리 부담을 줄이고 비즈니스 로직에 집중할 수 있는 환경을 제공한다.

챕터별 상세

00:36

신규 데이터 커넥터 및 Jira 통합

Microsoft Dynamics 365, Jira, Confluence, Salesforce(증분 로드 지원), Meta Ads, NetSuite 등 다양한 엔터프라이즈 소스를 위한 신규 커넥터가 공개됐다. Jira 커넥터를 사용하면 티켓 정보, 댓글, 사용자 프로필 데이터를 Lakehouse로 직접 수집할 수 있다. 데모에서는 Jira API 스코프를 설정하고 Databricks 카탈로그에서 연결을 생성하여 실시간으로 데이터를 가져오는 과정을 확인했다.

•Salesforce 커넥터는 이제 대규모 테이블 처리를 위한 증분 로드 기능을 지원한다.
•Jira 커넥터는 OAuth 인증을 통해 티켓 상세 정보와 사용자 상호작용 데이터를 수집한다.
•수집된 데이터는 Delta 테이블로 저장되어 즉시 AI 분석 파이프라인에 활용 가능하다.

05:15

Databricks Assistant 및 에이전트 스킬 확장

Databricks Assistant가 공식 문서 페이지에 통합되어 사용자 질문에 즉각 답변하는 기능을 제공한다. 특히 '에이전트 스킬(Agent Skills)' 기능이 공개되어 사용자가 정의한 마크다운 파일이나 스크립트를 통해 어시스턴트의 기능을 확장할 수 있다. 이를 통해 특정 프로젝트의 코드 컨벤션이나 배포 스크립트 실행 순서와 같은 커스텀 지식을 어시스턴트에게 학습시켜 팀별 맞춤형 지원이 가능하다.

•Assistant는 이제 docs.databricks.com 페이지에서 직접 사용자와 상호작용한다.
•Agent Skills는 마크다운(.md) 파일 형태로 워크스페이스에 저장되어 어시스턴트의 컨텍스트를 확장한다.
•반복적인 작업이나 복잡한 배포 워크플로우를 스킬로 등록하여 자동화할 수 있다.

10:57

Spark Declarative Pipelines의 foreachBatch 지원

Spark Declarative Pipelines(SDP)에서 foreachBatch 기능을 지원함에 따라 복잡한 마이크로 배치 처리가 가능해졌다. 기존에는 스트리밍 파이프라인에서 커스텀 싱크를 구현하는 데 제약이 있었으나, 이제 JDBC를 통한 외부 DB 전송이나 복잡한 MERGE INTO 로직을 파이프라인 내부에 직접 작성할 수 있다. 이는 데이터 엔지니어가 선언적 파이프라인의 장점을 유지하면서도 세밀한 제어가 필요한 로직을 추가할 수 있게 한다.

•foreachBatch를 통해 JDBC 싱크 등 표준 SDP에서 지원하지 않는 목적지로 데이터를 전송한다.
•스트리밍 데이터에 대해 복잡한 조건부 업데이트(Merge) 로직을 파이썬 코드로 구현했다.
•UI 상에서 파이프라인 그래프를 통해 foreachBatch 싱크의 상태를 시각적으로 모니터링한다.

python

def df_refund_road_update():
    df = spark.read_table("caspersdev.recommender.refund_recommendations")
    # ... (중략)

@dp.foreach_batch_sink(target="merge_into_sink")
def feb_batch_update(batch_df, batch_id):
    batch_df.createOrReplaceTempView("batch_df_view")
    df.sparkSession.sql("""
        MERGE INTO caspersdev.recommender.df_refund_rcmd_update AS T
        USING batch_df_view AS S
        ON T.order_id = S.order_id
        WHEN MATCHED THEN UPDATE SET T.agent_response = S.agent_response
    """)

Spark Declarative Pipelines(SDP)에서 foreachBatch를 사용하여 커스텀 MERGE 로직을 구현하는 예시

15:38

파운데이션 모델 API 및 Claude/GPT 통합

Databricks Foundation Model API를 통해 OpenAI의 GPT-4o와 Anthropic의 Claude 3.5 모델을 직접 호출할 수 있는 환경이 구축됐다. 인퍼런스 테이블(Inference Table) 설정을 활성화하면 모든 모델 호출 요청과 응답 데이터가 자동으로 로깅된다. 이를 통해 에이전트의 대화 이력을 분석하고, 자주 발생하는 패턴을 파악하여 새로운 '스킬'을 생성하거나 모델의 성능을 최적화하는 피드백 루프를 만들 수 있다.

•Claude 3.5 Sonnet 및 Opus 모델이 Foundation Model API를 통해 지원된다.
•Inference Table은 모델 호출 데이터를 자동으로 수집하여 성능 분석 및 디버깅을 돕는다.
•로깅된 데이터를 기반으로 에이전트의 행동 패턴을 분석하고 커스텀 도구를 도출할 수 있다.

19:26

Delta Sharing과 Iceberg 호환성 강화

Delta Sharing이 이제 Apache Iceberg 포맷을 지원하여 이기종 플랫폼 간의 데이터 공유가 더욱 용이해졌다. 기존 Delta 테이블의 메타데이터 설정을 변경하여 Iceberg 호환 모드를 활성화하면, 데이터를 물리적으로 복제하지 않고도 Iceberg 클라이언트를 사용하는 외부 조직과 실시간으로 데이터를 공유할 수 있다. 이는 데이터 사일로를 제거하고 멀티 클라우드 환경에서의 협업 효율성을 극대화한다.

•Delta 테이블 속성에서 'universalFormat.enabledFormats'를 'iceberg'로 설정하여 호환성을 확보한다.
•데이터 복제 없이 메타데이터 변환만으로 Iceberg 클라이언트에서 Delta 데이터를 읽을 수 있다.
•Unity Catalog를 통해 공유 권한을 관리하며 외부 조직과의 안전한 데이터 교환을 지원한다.

22:06

Knowledge Assistant GA 및 Lakebase 자동 확장

RAG 시스템을 코딩 없이 구축할 수 있는 Knowledge Assistant가 정식 출시(GA)되었다. 사용자는 PDF나 워드 문서가 담긴 볼륨을 선택하기만 하면 즉시 답변 가능한 챗봇 에이전트를 생성할 수 있다. 또한 Postgres 기반의 Lakebase가 퍼블릭 프리뷰로 공개되어 컴퓨팅 자원의 자동 확장(Autoscaling)을 지원한다. Lakebase는 데이터와 애플리케이션 간의 지연 시간을 최소화하며, 사용하지 않을 때는 자원을 0으로 줄여 비용을 절감한다.

•Knowledge Assistant는 Unity Catalog 볼륨의 문서를 기반으로 RAG 챗봇을 자동 생성한다.
•Lakebase는 Postgres 호환성을 유지하며 서버리스 방식의 자동 확장을 지원한다.
•브랜칭 기능을 통해 운영 환경에 영향을 주지 않고 데이터베이스 스키마 및 데이터를 테스트할 수 있다.

실무 Takeaway

Jira 및 Salesforce 신규 커넥터를 활용해 외부 비즈니스 데이터를 Lakehouse로 통합하고 AI 분석 파이프라인을 즉시 구축할 수 있다.
Databricks Assistant의 'Skills' 기능을 사용해 팀 전용 개발 가이드나 운영 매뉴얼을 학습시켜 개발 생산성을 높여야 한다.
Foundation Model API와 인퍼런스 테이블을 결합해 LLM 애플리케이션의 비용과 성능을 데이터 기반으로 투명하게 관리할 수 있다.
Delta Sharing의 Iceberg 지원을 통해 데이터를 복제하지 않고도 타 플랫폼 사용자들과 실시간으로 협업하는 아키텍처를 설계할 수 있다.

언급된 리소스

문서Databricks Release Notes

GitHubCasper's Kitchen GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 02.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Databricks 최신 업데이트: 데이터 커넥터, AI 어시스턴트 및 파운데이션 모델 통합 | AI Trends