핵심 요약
AI 에이전트의 도구 호출 정확도는 복잡한 작업을 자율적으로 수행하는 데 필수적이다. 본 글은 Amazon SageMaker AI 환경에서 SFT와 DPO를 결합하여 언어 모델의 도구 사용 능력을 개선하는 파이프라인을 다룬다. NVIDIA의 When2Call 데이터셋을 활용해 Qwen3-1.7B 모델을 학습시킨 결과, 전체 정확도가 30% 향상되는 성과를 확인했다. 이 접근법은 모델의 기초 지식 습득과 사용자 선호도 정렬을 동시에 달성하여 에이전트의 신뢰성을 높인다.
배경
AWS 계정, SageMaker AI 접근 권한, Python 개발 환경
대상 독자
AI 에이전트 프로덕션 환경을 구축하는 개발자
의미 / 영향
이 접근법은 소형 언어 모델(SLM)을 활용해 비용 효율적인 고성능 AI 에이전트를 구축하는 표준적인 파이프라인을 제시한다. 특히 도구 호출 정확도를 30% 이상 개선함으로써 복잡한 비즈니스 로직을 자동화하는 에이전트의 신뢰성을 크게 높일 수 있다.
섹션별 상세
def generate_and_tokenize_prompt(data_point):
full_prompt = f"""
You are a helpful assistant with access to the following tools or function calls.
Your task is to produce a sequence of tools or function calls necessary to generate response to the user utterance.
Use the following tools or function calls as required: {data_point["tools"]}
"""
return {"system_prompt": full_prompt.strip()}도구 호출을 위한 시스템 프롬프트를 생성하고 토큰화하는 함수 예시

model_trainer = ModelTrainer(
training_image=image_uri,
compute=compute,
hyperparameters=hyperparameters,
environment=env,
source_code=source_code,
stopping_condition=StoppingCondition(
max_runtime_in_seconds=90000,
),
checkpoint_config=CheckpointConfig(
s3_uri=f"{checkpoint_s3_path}/{job_prefix}",
),
base_job_name=job_prefix
)SageMaker AI ModelTrainer를 사용하여 학습 작업을 설정하는 코드
실무 Takeaway
- SFT와 DPO를 순차적으로 적용하면 모델의 기초 도구 사용 능력과 사용자 선호도 정렬을 모두 최적화할 수 있다.
- SageMaker AI의 ModelTrainer API를 활용하면 인프라 프로비저닝 없이 관리형 환경에서 분산 학습을 자동화할 수 있다.
- Qwen3-1.7B와 같은 소형 모델도 적절한 파인튜닝을 거치면 대형 모델보다 높은 효율성과 정확도를 달성할 수 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.