Amazon SageMaker AI에서 SFT와 DPO를 활용한 AI 에이전트 도구 호출 정확도 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

AI 에이전트의 도구 호출 정확도는 복잡한 작업을 자율적으로 수행하는 데 필수적이다. 본 글은 Amazon SageMaker AI 환경에서 SFT와 DPO를 결합하여 언어 모델의 도구 사용 능력을 개선하는 파이프라인을 다룬다. NVIDIA의 When2Call 데이터셋을 활용해 Qwen3-1.7B 모델을 학습시킨 결과, 전체 정확도가 30% 향상되는 성과를 확인했다. 이 접근법은 모델의 기초 지식 습득과 사용자 선호도 정렬을 동시에 달성하여 에이전트의 신뢰성을 높인다.

배경

AWS 계정, SageMaker AI 접근 권한, Python 개발 환경

대상 독자

AI 에이전트 프로덕션 환경을 구축하는 개발자

의미 / 영향

이 접근법은 소형 언어 모델(SLM)을 활용해 비용 효율적인 고성능 AI 에이전트를 구축하는 표준적인 파이프라인을 제시한다. 특히 도구 호출 정확도를 30% 이상 개선함으로써 복잡한 비즈니스 로직을 자동화하는 에이전트의 신뢰성을 크게 높일 수 있다.

섹션별 상세

에이전트가 잘못된 도구를 선택하거나 매개변수를 틀리면 작업 지연과 오류가 발생하므로, 도구 호출 정확도 개선이 프로덕션 환경에서 중요하다.

SFT는 고품질 데이터셋을 통해 모델이 특정 도구 사용법과 언어적 뉘앙스를 학습하도록 돕고, DPO는 보상 모델 없이 사용자 선호도를 직접 학습하여 모델을 정렬한다.

python

def generate_and_tokenize_prompt(data_point):
    full_prompt = f"""
    You are a helpful assistant with access to the following tools or function calls.
    Your task is to produce a sequence of tools or function calls necessary to generate response to the user utterance.
    Use the following tools or function calls as required: {data_point["tools"]}
    """
    return {"system_prompt": full_prompt.strip()}

도구 호출을 위한 시스템 프롬프트를 생성하고 토큰화하는 함수 예시

DPO(Direct Preference Optimization) 학습 흐름을 보여주는 다이어그램 — Diagram이 다이어그램은 선호하는 응답과 거부된 응답을 비교하여 모델의 출력을 인간의 선호도에 맞게 정렬하는 DPO 학습 과정을 시각화한다. 보상 모델 없이도 강화 학습과 유사한 최적화 목표를 달성하는 DPO의 핵심 메커니즘을 설명한다.

SageMaker AI의 ModelTrainer를 사용하면 분산 학습 인프라를 직접 관리할 필요 없이 대규모 모델 학습을 효율적으로 수행할 수 있다.

python

model_trainer = ModelTrainer(
    training_image=image_uri,
    compute=compute,
    hyperparameters=hyperparameters,
    environment=env,
    source_code=source_code,
    stopping_condition=StoppingCondition(
        max_runtime_in_seconds=90000,
    ),
    checkpoint_config=CheckpointConfig(
        s3_uri=f"{checkpoint_s3_path}/{job_prefix}",
    ),
    base_job_name=job_prefix
)

SageMaker AI ModelTrainer를 사용하여 학습 작업을 설정하는 코드

NVIDIA의 When2Call 데이터셋을 활용해 Qwen3-1.7B 모델을 학습한 결과, SFT와 DPO를 거치며 정확도가 41.57%에서 71.06%로 30% 상승했다.

근거

Qwen3-1.7B 모델이 SFT와 DPO를 통해 정확도가 30% 향상됨 — Results 섹션의 모델 성능 비교표 및 설명

용어 해설

SFT: — Supervised Fine-Tuning의 약자로, 라벨링된 데이터셋을 사용하여 모델이 특정 작업이나 도구 사용법을 직접 학습하도록 하는 파인튜닝 기법이다. 모델의 기초적인 도구 호출 능력과 언어적 뉘앙스를 정립하는 데 필수적이다.
DPO: — Direct Preference Optimization의 약자로, 보상 모델 없이 사용자 선호 데이터를 직접 학습하여 모델을 정렬하는 기법이다. 강화 학습보다 자원 소모가 적고 효율적으로 모델의 행동을 개선할 수 있다.
Tool-Calling: — 언어 모델이 외부 API나 함수를 호출하여 정보를 검색하거나 작업을 수행하는 기능이다. 에이전트가 복잡한 다단계 작업을 자율적으로 처리하기 위한 핵심 메커니즘이다.
MPO: — Mixed Preference Optimization의 약자로, SFT와 DPO 등 여러 손실 함수를 결합하여 학습하는 기법이다. 데이터셋의 특성에 따라 가중치를 조절하여 모델 성능을 최적화한다.

언급된 리소스

GitHubAmazon SageMaker Generative AI Samples