Sam WitteveenLLM

OpenAI의 Open Responses 표준: 오픈소스 모델을 위한 에이전트 API 규격

OpenAI가 제안한 Open Responses 표준을 통해 오픈소스 LLM의 도구 호출, 추론 과정, 에이전트 워크플로를 표준화하고 실제 코드로 구현하는 방법을 다룹니다.

챕터별 상세

00:00

채팅을 넘어 에이전트용 API로의 진화

Google의 Interactions API와 OpenAI의 Responses API는 모두 단순한 텍스트 입출력을 넘어 시스템과 에이전트를 위한 구조화된 통신을 지향한다. 과거에는 모든 모델이 OpenAI의 Chat Completions API와 호환되도록 설계되었으나, 이제는 추론 과정과 멀티모달 워크플로를 포함하는 새로운 표준이 필요해졌다. Open Responses는 이러한 요구를 반영하여 OpenAI가 공개한 오픈소스 사양이다.

02:33

Open Responses 표준의 핵심 구조

Open Responses는 멀티 벤더 환경을 지원하도록 설계된 개방형 사양이다. 'Items'라는 기본 단위를 통해 메시지, 도구 호출, 추론 상태 등을 다형성(Polymorphic) 있게 관리한다. 이를 통해 개발자는 특정 모델 제공자에 종속되지 않고 일관된 방식으로 에이전트 워크플로를 설계할 수 있다. Hugging Face, Ollama, Vercel, OpenRouter 등이 초기 파트너로 참여하여 생태계를 확장하고 있다.

05:27

에이전트 루프와 추론 과정의 표준화

모델이 스스로 사고하고 행동하는 'Agentic Loop'를 API 수준에서 정의했다. 모델의 내부 사고 과정을 담은 'Reasoning' 필드는 원시 토큰(raw), 보호된 데이터(protected), 요약(summary)으로 구분되어 제공된다. 이는 DeepSeek-R1이나 OpenAI o1과 같은 추론 모델의 성능을 표준화된 방식으로 활용할 수 있게 한다. 스트리밍 응답 역시 단순 텍스트 델타가 아닌 의미론적 이벤트(Semantic Events) 시리즈로 모델링되었다.

07:33

도구 호출 및 MCP 지원

도구(Tool) 사용은 내부 호스팅 도구와 외부 호스팅 도구로 나뉜다. OpenAI의 파일 검색과 같은 내부 도구뿐만 아니라, MCP(Model Context Protocol)를 통한 외부 도구 호출도 표준에 포함되었다. tool_choice 파라미터를 통해 모델이 도구를 반드시 사용하게 하거나(required), 자동으로 결정하게(auto) 제어할 수 있다. 이는 오픈소스 모델이 상용 모델 수준의 도구 활용 능력을 갖추도록 돕는다.

python

tools = [{
    "type": "function",
    "name": "get_current_weather",
    "parameters": {
        "type": "object",
        "properties": {
            "location": {"type": "string"}
        }
    }
}]

response = client.responses.create(
    model=MODEL,
    tools=tools,
    tool_choice="auto",
    input="What's the weather like in Singapore?"
)

Open Responses 표준에 따라 도구(Tool)를 정의하고 자동 호출을 설정하는 예시

10:22

Ollama와 Hugging Face를 활용한 실습 데모

Open Responses SDK를 사용하여 로컬의 Ollama와 Hugging Face 인퍼런스 엔드포인트를 제어하는 과정을 시연했다. Python 코드로 클라이언트를 설정하고, 표준화된 responses.create 메서드를 호출하여 추론 토큰과 도구 호출 결과를 확인했다. 특히 Ollama가 Anthropic API 호환성을 발표한 것과 연계하여, 오픈소스 모델이 Claude Code와 같은 도구와도 원활하게 작동할 수 있음을 입증했다. 결과적으로 모델 제공자가 달라도 동일한 코드로 에이전트를 운영할 수 있다.

python

from openai import OpenAI

client = OpenAI(
    base_url="https://api-inference.huggingface.co/v1/responses",
    api_key=HF_TOKEN
)

response = client.responses.create(
    model="mistralai/Mixtral-8x7B-Instruct-v0.1",
    instructions="You are a helpful assistant.",
    input="What are the three laws of robotics?"
)

print(response.output_text)

Open Responses SDK를 사용하여 Hugging Face 인퍼런스 엔드포인트에 표준화된 방식으로 요청을 보내는 예시

용어 해설

에이전트 루프(Agentic Loop): — AI 모델이 사용자의 요청을 분석하고, 필요에 따라 도구를 호출하며, 그 결과를 다시 입력으로 받아 최종 응답을 생성할 때까지 반복하는 자율적 워크플로이다. Open Responses 표준에서 모델의 자율성을 제어하고 상태를 관리하는 핵심 메커니즘으로 정의된다.
추론 토큰(Reasoning Tokens): — 모델이 최종 답변을 내놓기 전 내부적으로 사고하는 과정을 담은 토큰이다. Open Responses는 이를 원시 데이터(raw), 암호화된 데이터(protected), 또는 요약(summary) 형태로 구분하여 제공함으로써 개발자가 모델의 사고 과정을 투명하게 모니터링하거나 제어할 수 있게 한다.
모델 컨텍스트 프로토콜(Model Context Protocol (MCP)): — AI 모델이 외부 데이터 소스나 도구에 안전하고 표준화된 방식으로 접근할 수 있도록 설계된 개방형 프로토콜이다. Open Responses 표준은 MCP를 지원하여 모델이 외부 서버에 호스팅된 도구를 일관된 방식으로 호출할 수 있게 한다.
도구 호출(Tool Calling): — LLM이 텍스트 생성을 넘어 외부 함수나 API를 실행하도록 요청하는 기능이다. Open Responses는 내부 호스팅 도구와 외부 호스팅 도구를 구분하여 정의하며, 모델이 도구 사용 여부를 스스로 결정하는 tool_choice 파라미터를 표준화했다.

언급된 리소스

문서Open Responses Specification

문서Hugging Face Blog: Open Responses

GitHubOpen Responses Demo GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 20.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.