Amazon SageMaker, Athena 및 Quick을 활용한 에이전틱 AI 분석 구현

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

현대 기업이 직면한 방대한 데이터 레이크 분석의 기술적 장벽을 해결하기 위해 Amazon Quick의 에이전틱 AI를 활용한 셀프 서비스 분석 아키텍처를 제안합니다. 이 시스템은 Amazon S3, Athena, AWS Glue를 기반으로 구축된 레이크하우스에서 구조화된 데이터와 비구조화된 지식 베이스를 통합하여 관리합니다. 사용자는 SQL 지식 없이도 자연어 인터페이스를 통해 복잡한 데이터셋을 쿼리하고 비즈니스 인사이트를 즉시 도출할 수 있습니다. TPC-H 벤치마크 데이터셋을 활용한 실습을 통해 데이터 준비부터 AI 에이전트 배포까지의 전 과정을 구체적인 단계로 입증합니다.

배경

AWS 계정 및 Amazon Quick 계정, S3, Athena, AWS Glue에 대한 기본 지식, IAM 및 Lake Formation 권한 관리 이해

대상 독자

데이터 엔지니어, BI 분석가, 클라우드 아키텍트

의미 / 영향

이 아키텍처는 데이터 분석의 진입 장벽을 낮추어 현업 담당자가 데이터 팀의 도움 없이 직접 인사이트를 얻게 합니다. 특히 구조화된 수치 데이터와 비구조화된 문서를 통합 분석함으로써 데이터의 의미까지 파악하는 고도화된 AI 분석 환경을 제공합니다.

섹션별 상세

전통적인 데이터 분석은 SQL 및 데이터 모델링 전문 지식이 필요하여 의사결정의 병목 현상을 초래합니다. Amazon Quick의 에이전틱 AI 어시스턴트는 자연어 인터페이스를 통해 비즈니스 사용자가 직접 복잡한 데이터셋을 쿼리할 수 있도록 변환합니다. 이를 통해 소매, 금융, 의료 등 다양한 산업군에서 데이터 분석의 민주화를 실현하고 비즈니스 성과를 개선할 수 있습니다.

TPC-H 데이터 소스부터 Amazon Quick 에이전트까지의 전체 데이터 흐름을 보여주는 아키텍처 다이어그램 — Diagram데이터가 S3에 저장되고 Athena를 거쳐 Quick SPICE로 로드되는 과정과, 지식 베이스가 에이전트와 결합되는 병렬 워크플로우를 시각화합니다. 1번부터 9번까지의 단계를 통해 전체 솔루션의 구성 요소를 한눈에 파악할 수 있게 돕습니다.

데이터 레이크하우스 구축을 위해 S3를 저장소로 사용하고 Athena를 통해 서버less SQL 쿼리를 수행합니다. CSV, Apache Iceberg, S3 Tables 등 다양한 최적화 포맷으로 데이터를 저장하여 ACID 트랜잭션과 고성능 쿼리 처리량을 확보합니다. AWS Glue Catalog는 이러한 다중 포맷 데이터를 통합된 메타데이터 레이어로 관리하여 원활한 쿼리 환경을 제공합니다.

sql

CREATE EXTERNAL TABLE IF NOT EXISTS blog_qs_athena_tpc_h_db_sql.customer_csv (
 C_CUSTKEY INT,
 C_NAME STRING,
 C_ADDRESS STRING,
 C_NATIONKEY INT,
 C_PHONE STRING,
 C_ACCTBAL DOUBLE,
 C_MKTSEGMENT STRING,
 C_COMMENT STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION 's3://redshift-downloads/TPC-H/2.18/100GB/customer/'
TBLPROPERTIES ('classification' = 'csv');

S3에 저장된 CSV 데이터를 Athena에서 쿼리하기 위해 외부 테이블을 생성하는 예시

sql

CREATE TABLE blog_qs_athena_tpc_h_db_sql.orders_iceberg
WITH (
 table_type = 'ICEBERG',
 format = 'PARQUET',
 is_external = false,
 partitioning = ARRAY['o_orderdate'],
 location = 's3://amzn-s3-demo-bucket/tpch_iceberg/orders/')
AS SELECT * FROM blog_qs_athena_tpc_h_db_sql.orders_csv
WHERE O_ORDERDATE BETWEEN '1998-06-01' AND '1998-12-31';

기존 CSV 데이터를 Apache Iceberg 포맷의 테이블로 변환하여 저장하는 CTAS 쿼리

Amazon Athena 쿼리 에디터에서 TPC-H 데이터베이스를 생성하는 실행 화면 — ScreenshotAthena를 사용하여 Glue 데이터 카탈로그에 논리적 데이터베이스를 등록하는 실제 구현 단계를 보여줍니다. 쿼리 실행 시간(230ms)과 스캔 데이터 정보가 포함되어 서버리스 쿼리의 효율성을 입증합니다.

Amazon Quick의 SPICE 엔진을 활용해 Athena에서 추출한 데이터를 인메모리에 로드하여 서브 초 단위의 응답 성능을 보장합니다. 여러 소스에서 온 데이터를 Custom SQL로 사전 조인(Join)하여 비즈니스 사용자가 이해하기 쉬운 단일 비정규화 데이터셋을 생성합니다. Quick Topic 설정을 통해 컬럼명을 비즈니스 개념으로 매핑하는 시맨틱 레이어를 구축하여 자연어 질의의 정확도를 높입니다.

비구조화된 데이터 처리를 위해 웹 크롤러로 수집한 사양 문서를 지식 베이스(Knowledge Base)로 구축합니다. 이 지식 베이스는 Amazon Quick Space 내에서 구조화된 데이터와 결합되어 AI 에이전트에게 문맥적 이해를 제공합니다. 사용자가 질문하면 에이전트는 데이터셋의 수치 정보와 지식 베이스의 정의를 동시에 참조하여 근거가 명확한 답변을 생성합니다.

최종 사용자는 대시보드와 채팅 에이전트라는 두 가지 인터페이스를 통해 시스템과 상호작용합니다. Amazon Q를 활용해 자연어 프롬프트만으로 대시보드 시각화를 생성하고, 채팅 에이전트는 페르소나 설정을 통해 특정 도메인에 특화된 답변을 제공합니다. 모든 과정은 AWS Lake Formation과 IAM을 통해 엔터프라이즈급 보안 및 거버넌스 프레임워크 내에서 안전하게 운영됩니다.

실무 Takeaway

반복적인 데이터 요청 업무를 줄이려면 Amazon Quick Topic을 설정하여 기술적 컬럼명을 비즈니스 용어로 매핑하는 시맨틱 레이어를 구축해야 한다.
대규모 데이터셋의 조인 성능을 최적화하려면 Quick 내부 조인 대신 Athena에서 Custom SQL을 사용해 데이터를 미리 조인한 후 SPICE에 로드하는 방식을 권장한다.
AI 에이전트의 답변 정확도를 높이려면 데이터 사전(Data Dictionary)과 같은 비구조화된 문서를 지식 베이스로 연결하여 수치 데이터에 대한 문맥적 근거를 제공해야 한다.

언급된 리소스

문서Getting Started with Amazon Athena

문서TPC-H Specification (PDF)

문서Securely analyze your data with AWS Lake Formation and Amazon QuickSight