SageMaker Unified Studio와 S3를 활용한 비정형 데이터 기반 LLM 파인튜닝 가속화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기업 내부에 산재한 비정형 데이터를 LLM 학습에 활용하려면 복잡한 데이터 이동과 권한 관리 문제를 해결해야 한다. Amazon SageMaker Unified Studio는 S3 일반 목적 버킷과의 통합을 통해 데이터 검색부터 카탈로그 게시, 프로젝트 간 구독까지의 과정을 단일 플랫폼에서 지원한다. Llama 3.2 11B Vision Instruct 모델을 DocVQA 데이터셋으로 파인튜닝한 결과, 10,000개의 이미지를 학습했을 때 ANLS 점수가 기본 모델의 85.3%에서 90.2%로 향상되었다. 이 방식은 S3 Access Grants를 통해 보안을 유지하면서도 데이터 생산자와 소비자 간의 협업 효율성을 극대화한다.

배경

AWS 계정 및 SageMaker Unified Studio 도메인 설정, 데이터 생산자 및 소비자 프로젝트 생성, DocVQA 데이터셋이 저장된 S3 버킷, p4de.24xlarge 인스턴스 사용을 위한 서비스 쿼타 확보

대상 독자

AWS 환경에서 LLM 파인튜닝과 데이터 파이프라인을 구축하는 ML 엔지니어 및 데이터 과학자

의미 / 영향

이 기술은 기업이 보유한 방대한 S3 비정형 데이터를 ML 워크플로우에 즉시 통합할 수 있게 하여 모델 개발 주기를 획기적으로 단축한다. 특히 보안이 강화된 S3 Access Grants와 통합 카탈로그를 통해 데이터 거버넌스를 유지하면서도 팀 간 협업을 원활하게 만든다.

섹션별 상세

SageMaker Unified Studio와 S3 통합은 비정형 데이터의 검색 및 카탈로그화 과정을 단순화한다. 데이터 생산자가 S3 버킷을 프로젝트에 추가하고 메타데이터와 함께 SageMaker Catalog에 게시하면, 다른 팀원들이 이를 구독하여 즉시 모델 개발에 활용할 수 있다. 이 구조는 데이터 사일로를 제거하고 조직 내 데이터 자산의 가시성을 높이는 역할을 한다. S3 Access Grants를 활용해 복잡한 IAM 정책 없이도 안전한 데이터 공유가 가능하다.

bash

AWS_ACCOUNT_ID = "123456789"
S3_BUCKET_NAME = "s3://MY_BUCKET_NAME/"

# Get credentials
result = !aws s3control get-data-access --account-id {AWS_ACCOUNT_ID} --target {S3_BUCKET_NAME} --permission READ
json_response = json.loads(result.s)
creds = json_response['Credentials']

# Configure profile with cell magic
!aws configure set aws_access_key_id {creds['AccessKeyId']} --profile access-grants-consumer-access-profile

S3 Access Grants를 통해 임시 자격 증명을 획득하고 AWS CLI 프로필을 설정하는 과정

SageMaker Unified Studio 내 데이터 생산자와 소비자 프로젝트 간의 데이터 공유 및 모델 개발 아키텍처 — DiagramS3 Access Grants와 SageMaker Catalog를 통해 프로젝트 간에 데이터가 어떻게 안전하게 유통되는지 보여주는 기술 아키텍처이다. IAM 역할 기반의 접근 제어와 MLflow 통합 지점을 명시한다.

Llama 3.2 11B Vision Instruct 모델을 활용한 시각적 질의응답(VQA) 성능 최적화 실험을 수행한다. DocVQA 데이터셋을 1,000개에서 10,000개까지 다양한 규모로 구성하여 파인튜닝을 진행하고 데이터 양에 따른 성능 변화를 분석한다. ANLS 지표를 기준으로 평가했을 때 데이터셋 규모가 커질수록 모델의 텍스트 추출 및 이해 정확도가 선형적으로 향상됨이 확인됐다. 이는 특정 도메인 데이터가 모델의 정밀도 향상에 미치는 영향을 입증한다.

python

import os
from datasets import load_dataset

# Create data directory
os.makedirs("data", exist_ok=True)

# Load and save train split (first 10,000 rows)
train_data = load_dataset("HuggingFaceM4/DocumentVQA", split="train[:10000]", cache_dir="./data")
train_data.save_to_disk("data/train")

Hugging Face에서 DocVQA 데이터셋을 로드하여 로컬 디렉토리에 저장하는 코드

영수증 이미지와 거래 날짜를 묻는 질문에 대해 LLM이 답변을 생성하는 과정을 보여주는 다이어그램 — Diagram본문에서 다루는 시각적 질의응답(VQA) 작업의 기본 개념을 설명한다. 이미지 데이터와 텍스트 질문이 LLM의 입력으로 들어가 정답을 도출하는 흐름을 직관적으로 보여준다.

서버리스 MLflow와 SageMaker JumpStart를 연동하여 실험 관리 및 모델 평가의 투명성을 확보한다. JumpStartEstimator를 통해 p4de.24xlarge 인스턴스에서 학습을 진행하며, MLflow는 하이퍼파라미터와 ANLS 점수 등 핵심 지표를 자동으로 기록한다. 최종 실험 결과 10,000개 이미지를 학습한 모델이 90.2%의 ANLS 점수를 기록하며 기본 모델 대비 4.9% 포인트의 성능 향상을 달성했다. 관리형 MLflow를 통해 여러 모델 버전의 성능을 시각적으로 비교하고 최적의 모델을 선택할 수 있다.

python

def training_pipeline(training_size):
    experiment_name = f"docvqa-{training_size}"
    mlflow.set_experiment(experiment_name)
    
    with mlflow.start_run(run_name="pipeline-run"):
        with mlflow.start_run(run_name="TrainDeploy", nested=True) as run:
            model_name = train(f"docvqa-{training_size}", "ml.p4d.24xlarge", training_data_path, experiment_name, run)

MLflow를 사용하여 데이터 전처리, 학습, 배포 과정을 추적하는 파이프라인 정의

S3 버킷에서 데이터셋을 추출하여 세 가지 크기의 학습 데이터셋을 만들고 모델을 학습 및 평가하는 전체 프로세스 플로우 — DiagramDocVQA 데이터셋을 1k, 5k, 10k 단위로 분할하여 SageMaker JumpStart로 학습시키고 MLflow로 평가하는 실험 설계를 요약한다. 전체 튜토리얼의 논리적 단계를 한눈에 파악할 수 있게 돕는다.

JupyterLab 스페이스 생성 시 유휴 시간(Idle time)을 설정하는 화면 — Screenshot대규모 모델 학습 시 세션이 끊기지 않도록 유휴 시간을 6시간으로 설정할 것을 권장하는 본문의 내용을 보완한다. 실무적인 환경 설정 팁을 시각적으로 전달한다.

실무 Takeaway

SageMaker Unified Studio의 통합 카탈로그를 사용하면 S3에 저장된 비정형 데이터를 복잡한 이동 없이 프로젝트 간에 안전하게 공유하고 관리할 수 있다.
Llama 3.2 Vision 모델의 VQA 성능을 극대화하려면 DocVQA와 같은 특화 데이터셋으로 파인튜닝해야 하며, 데이터 규모가 커질수록 ANLS 점수가 유의미하게 상승한다.
서버리스 MLflow를 활용하면 별도의 인프라 구축 없이도 대규모 LLM 학습 실험의 지표와 아티팩트를 체계적으로 추적하고 비교 분석할 수 있다.

언급된 리소스

GitHubSolution Code GitHub Repository

문서Llama 3.2 3B Model Card

AWS_ACCOUNT_ID = "123456789" S3_BUCKET_NAME = "s3://MY_BUCKET_NAME/" # Get credentials result = !aws s3control get-data-access --account-id {AWS_ACCOUNT_ID} --target {S3_BUCKET_NAME} --permission READ json_response = json.loads(result.s) creds = json_response['Credentials'] # Configure profile with cell magic !aws configure set aws_access_key_id {creds['AccessKeyId']} --profile access-grants-consumer-access-profile

import os from datasets import load_dataset # Create data directory os.makedirs("data", exist_ok=True) # Load and save train split (first 10,000 rows) train_data = load_dataset("HuggingFaceM4/DocumentVQA", split="train[:10000]", cache_dir="./data") train_data.save_to_disk("data/train")

def training_pipeline(training_size): experiment_name = f"docvqa-{training_size}" mlflow.set_experiment(experiment_name) with mlflow.start_run(run_name="pipeline-run"): with mlflow.start_run(run_name="TrainDeploy", nested=True) as run: model_name = train(f"docvqa-{training_size}", "ml.p4d.24xlarge", training_data_path, experiment_name, run)

SageMaker Unified Studio와 S3를 활용한 비정형 데이터 기반 LLM 파인튜닝 가속화

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

SageMaker Unified Studio와 S3를 활용한 비정형 데이터 기반 LLM 파인튜닝 가속화

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드