서울대학교 DSBA 연구실AI/ML

ReAct 프레임워크 심화: Self-Refine과 AutoGuide를 통한 에이전트 성능 최적화

LLM 에이전트가 스스로 결과물을 개선하는 Self-Refine 기법과 과거의 성공 및 실패 경로에서 가이드라인을 추출해 성능을 높이는 AutoGuide 프레임워크를 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM은 첫 시도에서 항상 최선의 결과를 내지 못하므로 Self-Refine과 같은 반복적 자기 개선 루프가 필수적이다. 또한 AutoGuide를 통해 과거의 경험에서 명시적인 가이드라인을 추출함으로써 처음 접하는 환경에서도 에이전트의 의사결정 정확도를 크게 높일 수 있다.

배경

서울대학교 DSBA 연구실에서 진행한 에이전트 AI 스터디의 5주차 발표 영상이다.

대상 독자

LLM 에이전트 설계 및 성능 최적화에 관심 있는 개발자 및 연구자

의미 / 영향

이 연구들은 LLM 에이전트가 단발성 추론에 그치지 않고 스스로를 교정하며 경험을 통해 지식을 축적하는 방향으로 진화하고 있음을 보여준다. 실무적으로는 복잡한 워크플로우를 가진 기업용 에이전트 시스템 구축 시, 사용자 피드백이나 과거 성공 사례를 가이드라인 데이터베이스로 구축하여 에이전트의 신뢰성을 지속적으로 향상시키는 아키텍처 설계에 기여할 것이다.

챕터별 상세

01:05

ReAct 프레임워크의 핵심: 추론과 행동의 결합

ReAct는 LLM의 추론(Reasoning) 능력과 행동(Acting) 능력을 결합한 프레임워크이다. 추론만 사용할 경우 할루시네이션이나 에러 누적 문제가 발생하고, 행동만 수행할 경우 계획 수립이나 예외 처리가 어렵다는 단점이 있다. ReAct는 이 두 과정을 교차로 수행하여 실시간 주가 정보 확인과 같은 복잡한 작업을 외부 도구 호출을 통해 해결한다.

•추론(Reasoning)은 내부 지식을 활용한 논리적 사고 과정이다
•행동(Acting)은 외부 도구, API 호출, 검색 등을 통한 환경과의 상호작용이다
•두 과정을 교차 수행함으로써 복잡한 태스크 해결 능력을 극대화한다

05:38

Self-Refine: 스스로 피드백하며 결과물을 다듬는 반복 루프

Self-Refine은 LLM이 생성한 초기 결과물을 스스로 평가하고 개선하는 반복적 프레임워크이다. 별도의 모델 학습이나 추가 데이터 없이 동일한 LLM을 피드백 제공자와 개선자로 활용한다. 인간이 이메일 초안을 쓰고 스스로 수정하는 과정에서 착안했으며, 코드 최적화나 수학 문제 해결 등 다양한 도메인에 적용 가능하다.

•추가 학습이나 별도의 피드백 모델 없이 단일 LLM으로 작동한다
•인간의 반복적 수정 과정을 모델의 추론 루프에 이식했다
•코드 최적화, 수학 문제, 대화 생성 등 7가지 태스크에서 성능 향상을 입증했다

09:20

Self-Refine의 작동 원리: 생성, 피드백, 개선의 3단계

Self-Refine은 초기 생성(Initial Generation), 피드백(Feedback), 개선(Refine)의 3단계 프롬프트로 구성된다. 피드백 단계에서는 결과물의 오류 위치를 식별하고 구체적인 수정 방향을 제시하는 'Actionable'하고 'Specific'한 피드백 생성이 핵심이다. 개선 단계에서는 이전 결과물과 피드백 이력을 모두 컨텍스트로 활용하여 최종 결과물의 품질을 높인다.

•피드백은 오류 위치와 수정 방향을 구체적으로 포함해야 한다
•반복 횟수가 늘어남에 따라 이전 피드백 이력을 프롬프트에 누적하여 참조한다
•더 이상 개선할 점이 없거나 최대 반복 횟수에 도달하면 프로세스를 종료한다

python

def self_refine(input_x, model_M):
    # 1. Initial Generation
    y_0 = model_M.generate(input_x)
    y_current = y_0
    
    for i in range(max_iterations):
        # 2. Feedback
        feedback = model_M.generate_feedback(input_x, y_current)
        if stop_condition(feedback):
            break
            
        # 3. Refine
        y_next = model_M.refine(input_x, y_current, feedback)
        y_current = y_next
        
    return y_current

Self-Refine의 핵심 로직인 생성, 피드백, 개선의 반복 루프를 추상화한 코드이다.

14:28

실험 결과로 증명된 Self-Refine의 범용적 성능 향상

GPT-3.5, ChatGPT, GPT-4 등 다양한 모델에서 Self-Refine 적용 시 일관된 성능 향상이 나타났다. 특히 코드 최적화 태스크에서 GPT-4 대비 8.7%의 높은 성능 향상을 보였다. 다만 수학 문제의 경우 미묘한 연산 오류를 모델이 스스로 찾아내기 어려워 상대적으로 향상 폭이 작았으며, 이는 피드백의 품질이 전체 성능의 결정적 요인임을 시사한다.

•모델의 크기가 클수록 Self-Refine을 통한 성능 향상 폭이 두드러진다
•단순히 여러 번 생성하는 것보다 피드백 기반의 개선이 훨씬 효과적이다
•실패 사례의 94%는 잘못된 피드백(오류 미식별 또는 잘못된 수정 방향)에서 기인한다

19:35

AutoGuide: 과거 경험에서 지식을 추출하는 에이전트 가이드라인

AutoGuide는 에이전트의 과거 성공 및 실패 경로(Trajectory)를 분석하여 상황별 가이드라인을 자동으로 생성하는 기법이다. 웹 내비게이션처럼 사전 지식이 부족한 환경에서 에이전트가 겪는 시행착오를 줄이기 위해 고안되었다. 오프라인 경험에서 '해야 할 것'과 '하지 말아야 할 것'을 자연어 형태의 가이드라인으로 압축하여 저장한다.

•오프라인 트래젝토리에서 성공과 실패가 갈리는 분기점을 찾아 지식을 추출한다
•추출된 지식은 컨텍스트와 가이드라인의 쌍(Pair)으로 딕셔너리 형태로 저장된다
•테스트 시 현재 상태와 유사한 가이드라인을 검색하여 프롬프트에 주입한다

에이전트가 웹사이트의 UI 구조나 버튼 위치를 미리 알지 못할 때 발생하는 성능 저하를 해결하기 위한 접근법이다.

24:48

AutoGuide의 핵심 메커니즘: 컨텍스트 식별과 가이드라인 추출

AutoGuide는 컨텍스트 식별 모듈과 가이드라인 추출 모듈로 나뉜다. 식별 모듈은 긍정적 경로와 부정적 경로가 갈라지는 시점까지의 공통된 상황을 자연어로 요약한다. 추출 모듈은 해당 상황에서 어떤 행동이 성공으로 이끌었는지 분석하여 명시적인 지침을 만든다. 이를 통해 에이전트는 컨텍스트 길이에 제한받지 않고 필요한 핵심 지식만 활용할 수 있다.

•성공/실패 경로의 대비(Contrastive) 분석을 통해 유의미한 정보를 추출한다
•긴 트래젝토리 전체를 넣는 대신 요약된 가이드라인만 사용하여 효율성을 높였다
•중복된 컨텍스트는 LLM을 통해 판별하여 지식 저장소를 최적화한다

30:04

복잡한 웹 환경에서의 AutoGuide 성능 검증 및 일반화 능력

ALFWorld, WebShop, WebArena 등 다양한 벤치마크에서 AutoGuide는 기존 ReAct 대비 월등한 성공률을 기록했다. 특히 학습하지 않은 새로운 도메인에서도 과거에 얻은 가이드라인을 적용해 성능을 높이는 일반화 능력을 보였다. 멀티모달 환경에서도 이미지와 텍스트 정보를 결합한 가이드라인 생성이 가능함을 확인했다.

•상황에 맞는 가이드라인만 선택적으로 제공하는 것이 전체를 제공하는 것보다 효과적이다
•도메인이 다른 웹사이트 간에도 공통된 행동 지침이 유효하게 작용한다
•가이드라인 개수가 너무 많으면 오히려 노이즈로 작용할 수 있어 적절한 K값 선택이 중요하다

실무 Takeaway

Self-Refine 기법을 적용할 때 피드백 프롬프트에 '오류의 구체적 위치'와 '수정 방법'을 명시하도록 설계하면 별도의 학습 없이도 에이전트의 결과물 품질을 10% 이상 개선할 수 있다.
에이전트의 과거 실행 로그(Trajectory)를 단순히 저장하는 것이 아니라, 성공과 실패 사례를 대비 분석하여 자연어 가이드라인으로 변환하면 컨텍스트 윈도우 효율성과 의사결정 정확도를 동시에 확보할 수 있다.
복잡한 순차적 의사결정 태스크에서 에이전트의 성능을 높이려면 현재 상태와 가장 유사한 과거의 성공 지침을 검색하여 프롬프트에 동적으로 주입하는 RAG 기반의 가이드라인 관리 시스템이 유효하다.

언급된 리소스

논문SELF-REFINE: Iterative Refinement with Self-Feedback

논문AutoGuide: Automated Generation and Selection of Context-Aware Guidelines for Large Language Model Agents

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 04.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

ReAct 프레임워크 심화: Self-Refine과 AutoGuide를 통한 에이전트 성능 최적화 | AI Trends