Amazon Bedrock AgentCore를 활용한 Recursive Language Model(RLM) 구현

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Recursive Language Model(RLM)은 문서 전체를 모델의 컨텍스트 윈도우에 입력하는 대신, 외부 환경으로 취급하여 프로그래밍 방식으로 상호작용하는 구조다. 루트 LLM은 코드를 작성해 문서를 탐색하고, 필요 시 서브 LLM을 호출하여 특정 섹션을 분석하며 결과를 작업 메모리에 저장한다. 이 방식은 문서 크기와 컨텍스트 윈도우 제한을 분리하여, 수백만 자 이상의 방대한 데이터도 처리 가능하다. LongBench v2 벤치마크 평가 결과, RLM은 기존 방식 대비 100%의 성공률을 기록하며 금융 및 코드 분석 작업에서 정확도를 크게 향상했다.

배경

AWS 계정 및 Amazon Bedrock 접근 권한, Python 3.10 이상, AWS CLI 설정, Boto3 및 Strands Agents SDK 활용 능력

대상 독자

긴 문서나 대규모 코드 저장소를 분석해야 하는 LLM 애플리케이션 개발자

의미 / 영향

RLM은 컨텍스트 윈도우 제한을 기술적으로 극복하여, 금융 보고서나 대규모 코드베이스와 같은 방대한 데이터 분석을 가능하게 한다. 이는 LLM의 활용 범위를 단순 요약을 넘어 심층적인 데이터 분석 영역으로 확장한다.

섹션별 상세

기존의 긴 컨텍스트 처리 방식은 모델의 입력 제한으로 인해 정보 손실이나 처리 실패가 발생한다. RLM은 문서를 모델 컨텍스트에 직접 넣지 않고, 외부 환경으로 간주하여 코드로 탐색하는 방식을 취한다. 이 구조는 루트 LLM이 코드 실행을 통해 문서를 슬라이싱하고, 필요한 부분만 서브 LLM에 전달하여 분석한다. 결과적으로 컨텍스트 윈도우 크기에 구애받지 않고 방대한 데이터를 처리할 수 있다.

Amazon Bedrock AgentCore Code Interpreter는 RLM 구현을 위한 핵심 실행 환경을 제공한다. 이 환경은 샌드박스 내에서 파이썬 코드를 실행하고, 세션 간 상태를 유지하여 작업 메모리 역할을 수행한다. 루트 LLM 에이전트는 이 환경에서 코드를 작성해 문서를 검색하고, 서브 LLM 호출 결과를 파이썬 변수로 저장한다. 이러한 구조는 루트 LLM의 컨텍스트 윈도우를 오케스트레이션에 집중하게 하여 효율성을 높인다.

python

response = client.start_code_interpreter_session(
    codeInterpreterIdentifier=code_interpreter_id,
    name="rlm-session",
    sessionTimeoutSeconds=3600
)

Amazon Bedrock AgentCore Code Interpreter 세션을 시작하는 코드

python

def llm_query(prompt: str) -> str:
    """Query a sub-LLM from within the sandbox."""
    response = bedrock_client.invoke_model(
        modelId=sub_model_id,
        body=json.dumps({
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 4096,
            "messages": [{"role": "user", "content": prompt}]
        })
    )
    result = json.loads(response['body'].read())
    return result['content'][0]['text']

샌드박스 내부에서 서브 LLM을 호출하여 분석을 수행하는 함수

python

agent = Agent(
    model="us.anthropic.claude-sonnet-4-5-20250929-v1:0",
    system_prompt=rlm_system_prompt,
    tools=[execute_python],
)

Strands Agent를 생성하고 execute_python 도구를 할당하는 코드

Recursive Language Model(RLM)의 아키텍처 다이어그램. — Diagram루트 LLM, REPL 환경(작업 메모리), 재귀적 호출 레이어의 상호작용을 시각화한다. 루트 LLM이 코드를 작성해 문서를 탐색하고, 서브 LLM을 호출하여 결과를 작업 메모리에 누적하는 흐름을 나타낸다.

LongBench v2 벤치마크를 통한 평가에서 RLM은 기존 방식보다 우수한 성능을 입증했다. 금융 문서 QA 작업에서 Claude Opus 4.6 모델에 RLM을 적용했을 때 정확도가 80.0%로 나타났다. 코드 저장소 이해 작업에서도 Claude Sonnet 4.5 모델이 RLM 적용 시 76.0%의 정확도를 기록했다. 모든 테스트 환경에서 RLM은 100%의 성공률을 달성하며 처리 안정성을 확보했다.

실무 Takeaway

문서 크기가 컨텍스트 윈도우를 초과하는 경우, RLM 패턴을 사용하여 외부 환경에서 코드로 데이터를 탐색하고 분석한다.
루트 LLM은 오케스트레이션만 담당하고, 서브 LLM을 호출하여 특정 섹션을 분석함으로써 컨텍스트 윈도우 효율을 극대화한다.
비용 효율성을 위해 루트 LLM은 고성능 모델을 사용하고, 서브 LLM은 Haiku 4.5와 같은 경량 모델을 활용하여 성능과 비용을 최적화한다.

언급된 리소스

논문Recursive Language Models (arXiv:2512.24601)

논문LongBench v2 (arXiv:2412.15204)

Amazon Bedrock AgentCore를 활용한 Recursive Language Model(RLM) 구현

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드