핵심 요약
LLM은 첫 시도에서 항상 최선의 결과를 내지 못하므로 Self-Refine과 같은 반복적 자기 개선 루프가 필수적이다. 또한 AutoGuide를 통해 과거의 경험에서 명시적인 가이드라인을 추출함으로써 처음 접하는 환경에서도 에이전트의 의사결정 정확도를 크게 높일 수 있다.
배경
서울대학교 DSBA 연구실에서 진행한 에이전트 AI 스터디의 5주차 발표 영상이다.
대상 독자
LLM 에이전트 설계 및 성능 최적화에 관심 있는 개발자 및 연구자
의미 / 영향
이 연구들은 LLM 에이전트가 단발성 추론에 그치지 않고 스스로를 교정하며 경험을 통해 지식을 축적하는 방향으로 진화하고 있음을 보여준다. 실무적으로는 복잡한 워크플로우를 가진 기업용 에이전트 시스템 구축 시, 사용자 피드백이나 과거 성공 사례를 가이드라인 데이터베이스로 구축하여 에이전트의 신뢰성을 지속적으로 향상시키는 아키텍처 설계에 기여할 것이다.
챕터별 상세
ReAct 프레임워크의 핵심: 추론과 행동의 결합
- •추론(Reasoning)은 내부 지식을 활용한 논리적 사고 과정이다
- •행동(Acting)은 외부 도구, API 호출, 검색 등을 통한 환경과의 상호작용이다
- •두 과정을 교차 수행함으로써 복잡한 태스크 해결 능력을 극대화한다
Self-Refine: 스스로 피드백하며 결과물을 다듬는 반복 루프
- •추가 학습이나 별도의 피드백 모델 없이 단일 LLM으로 작동한다
- •인간의 반복적 수정 과정을 모델의 추론 루프에 이식했다
- •코드 최적화, 수학 문제, 대화 생성 등 7가지 태스크에서 성능 향상을 입증했다
Self-Refine의 작동 원리: 생성, 피드백, 개선의 3단계
- •피드백은 오류 위치와 수정 방향을 구체적으로 포함해야 한다
- •반복 횟수가 늘어남에 따라 이전 피드백 이력을 프롬프트에 누적하여 참조한다
- •더 이상 개선할 점이 없거나 최대 반복 횟수에 도달하면 프로세스를 종료한다
def self_refine(input_x, model_M):
# 1. Initial Generation
y_0 = model_M.generate(input_x)
y_current = y_0
for i in range(max_iterations):
# 2. Feedback
feedback = model_M.generate_feedback(input_x, y_current)
if stop_condition(feedback):
break
# 3. Refine
y_next = model_M.refine(input_x, y_current, feedback)
y_current = y_next
return y_currentSelf-Refine의 핵심 로직인 생성, 피드백, 개선의 반복 루프를 추상화한 코드이다.
실험 결과로 증명된 Self-Refine의 범용적 성능 향상
- •모델의 크기가 클수록 Self-Refine을 통한 성능 향상 폭이 두드러진다
- •단순히 여러 번 생성하는 것보다 피드백 기반의 개선이 훨씬 효과적이다
- •실패 사례의 94%는 잘못된 피드백(오류 미식별 또는 잘못된 수정 방향)에서 기인한다
AutoGuide: 과거 경험에서 지식을 추출하는 에이전트 가이드라인
- •오프라인 트래젝토리에서 성공과 실패가 갈리는 분기점을 찾아 지식을 추출한다
- •추출된 지식은 컨텍스트와 가이드라인의 쌍(Pair)으로 딕셔너리 형태로 저장된다
- •테스트 시 현재 상태와 유사한 가이드라인을 검색하여 프롬프트에 주입한다
에이전트가 웹사이트의 UI 구조나 버튼 위치를 미리 알지 못할 때 발생하는 성능 저하를 해결하기 위한 접근법이다.
AutoGuide의 핵심 메커니즘: 컨텍스트 식별과 가이드라인 추출
- •성공/실패 경로의 대비(Contrastive) 분석을 통해 유의미한 정보를 추출한다
- •긴 트래젝토리 전체를 넣는 대신 요약된 가이드라인만 사용하여 효율성을 높였다
- •중복된 컨텍스트는 LLM을 통해 판별하여 지식 저장소를 최적화한다
복잡한 웹 환경에서의 AutoGuide 성능 검증 및 일반화 능력
- •상황에 맞는 가이드라인만 선택적으로 제공하는 것이 전체를 제공하는 것보다 효과적이다
- •도메인이 다른 웹사이트 간에도 공통된 행동 지침이 유효하게 작용한다
- •가이드라인 개수가 너무 많으면 오히려 노이즈로 작용할 수 있어 적절한 K값 선택이 중요하다
실무 Takeaway
- Self-Refine 기법을 적용할 때 피드백 프롬프트에 '오류의 구체적 위치'와 '수정 방법'을 명시하도록 설계하면 별도의 학습 없이도 에이전트의 결과물 품질을 10% 이상 개선할 수 있다.
- 에이전트의 과거 실행 로그(Trajectory)를 단순히 저장하는 것이 아니라, 성공과 실패 사례를 대비 분석하여 자연어 가이드라인으로 변환하면 컨텍스트 윈도우 효율성과 의사결정 정확도를 동시에 확보할 수 있다.
- 복잡한 순차적 의사결정 태스크에서 에이전트의 성능을 높이려면 현재 상태와 가장 유사한 과거의 성공 지침을 검색하여 프롬프트에 동적으로 주입하는 RAG 기반의 가이드라인 관리 시스템이 유효하다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.