핵심 요약
신규 커넥터와 AI 어시스턴트의 확장성, 그리고 파운데이션 모델 API의 통합을 통해 데이터 수집부터 AI 에이전트 구축까지의 전 과정을 단일 플랫폼에서 효율적으로 관리할 수 있다.
배경
Databricks 플랫폼의 최근 60일간 주요 업데이트 사항을 공유하고, 이를 실제 아키텍처에 어떻게 적용할 수 있는지 논의하는 영상이다.
대상 독자
데이터 엔지니어, ML 엔지니어, 솔루션 아키텍트 및 Databricks 사용자
의미 / 영향
데이터 엔지니어링과 AI 모델 서빙의 경계가 더욱 허물어지며, 단일 플랫폼 내에서 데이터 수집부터 RAG 시스템 구축, 모델 모니터링까지 전체 생명주기를 관리하는 것이 표준이 될 것이다. 특히 서버리스 기반의 자동 확장 기능과 오픈 포맷 호환성 강화는 인프라 관리 부담을 줄이고 비즈니스 로직에 집중할 수 있는 환경을 제공한다.
챕터별 상세
신규 데이터 커넥터 및 Jira 통합
- •Salesforce 커넥터는 이제 대규모 테이블 처리를 위한 증분 로드 기능을 지원한다.
- •Jira 커넥터는 OAuth 인증을 통해 티켓 상세 정보와 사용자 상호작용 데이터를 수집한다.
- •수집된 데이터는 Delta 테이블로 저장되어 즉시 AI 분석 파이프라인에 활용 가능하다.
Databricks Assistant 및 에이전트 스킬 확장
- •Assistant는 이제 docs.databricks.com 페이지에서 직접 사용자와 상호작용한다.
- •Agent Skills는 마크다운(.md) 파일 형태로 워크스페이스에 저장되어 어시스턴트의 컨텍스트를 확장한다.
- •반복적인 작업이나 복잡한 배포 워크플로우를 스킬로 등록하여 자동화할 수 있다.
Spark Declarative Pipelines의 foreachBatch 지원
- •foreachBatch를 통해 JDBC 싱크 등 표준 SDP에서 지원하지 않는 목적지로 데이터를 전송한다.
- •스트리밍 데이터에 대해 복잡한 조건부 업데이트(Merge) 로직을 파이썬 코드로 구현했다.
- •UI 상에서 파이프라인 그래프를 통해 foreachBatch 싱크의 상태를 시각적으로 모니터링한다.
def df_refund_road_update():
df = spark.read_table("caspersdev.recommender.refund_recommendations")
# ... (중략)
@dp.foreach_batch_sink(target="merge_into_sink")
def feb_batch_update(batch_df, batch_id):
batch_df.createOrReplaceTempView("batch_df_view")
df.sparkSession.sql("""
MERGE INTO caspersdev.recommender.df_refund_rcmd_update AS T
USING batch_df_view AS S
ON T.order_id = S.order_id
WHEN MATCHED THEN UPDATE SET T.agent_response = S.agent_response
""")Spark Declarative Pipelines(SDP)에서 foreachBatch를 사용하여 커스텀 MERGE 로직을 구현하는 예시
파운데이션 모델 API 및 Claude/GPT 통합
- •Claude 3.5 Sonnet 및 Opus 모델이 Foundation Model API를 통해 지원된다.
- •Inference Table은 모델 호출 데이터를 자동으로 수집하여 성능 분석 및 디버깅을 돕는다.
- •로깅된 데이터를 기반으로 에이전트의 행동 패턴을 분석하고 커스텀 도구를 도출할 수 있다.
Delta Sharing과 Iceberg 호환성 강화
- •Delta 테이블 속성에서 'universalFormat.enabledFormats'를 'iceberg'로 설정하여 호환성을 확보한다.
- •데이터 복제 없이 메타데이터 변환만으로 Iceberg 클라이언트에서 Delta 데이터를 읽을 수 있다.
- •Unity Catalog를 통해 공유 권한을 관리하며 외부 조직과의 안전한 데이터 교환을 지원한다.
Knowledge Assistant GA 및 Lakebase 자동 확장
- •Knowledge Assistant는 Unity Catalog 볼륨의 문서를 기반으로 RAG 챗봇을 자동 생성한다.
- •Lakebase는 Postgres 호환성을 유지하며 서버리스 방식의 자동 확장을 지원한다.
- •브랜칭 기능을 통해 운영 환경에 영향을 주지 않고 데이터베이스 스키마 및 데이터를 테스트할 수 있다.
실무 Takeaway
- Jira 및 Salesforce 신규 커넥터를 활용해 외부 비즈니스 데이터를 Lakehouse로 통합하고 AI 분석 파이프라인을 즉시 구축할 수 있다.
- Databricks Assistant의 'Skills' 기능을 사용해 팀 전용 개발 가이드나 운영 매뉴얼을 학습시켜 개발 생산성을 높여야 한다.
- Foundation Model API와 인퍼런스 테이블을 결합해 LLM 애플리케이션의 비용과 성능을 데이터 기반으로 투명하게 관리할 수 있다.
- Delta Sharing의 Iceberg 지원을 통해 데이터를 복제하지 않고도 타 플랫폼 사용자들과 실시간으로 협업하는 아키텍처를 설계할 수 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.