HDP: 에이전트형 AI 시스템의 인간 위임 출처 확인을 위한 경량 암호화 프로토콜

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

멀티 에이전트 시스템에서 인간의 최초 명령이 여러 단계를 거치며 왜곡되거나 프롬프트 인젝션 공격으로 변질되는 문제를 해결합니다. 별도의 중앙 서버 없이도 각 에이전트가 수행하는 작업이 실제 인간의 승인을 받은 것인지 암호학적으로 즉시 검증할 수 있는 표준을 제시합니다.

왜 중요한가

핵심 기여

인간 위임 출처(HDP) 프로토콜 정의

인간의 승인 이벤트를 세션에 바인딩하고, 에이전트 간의 위임 단계를 추가 전용(Append-only) 체인으로 기록하는 경량 토큰 구조를 설계했다.

오프라인 검증 메커니즘 구현

중앙 레지스트리 조회나 서드파티 신뢰 기관 없이 발행자의 Ed25519 공개 키와 세션 식별자만으로 전체 위임 경로의 무결성을 검증하는 방식을 도입했다.

프롬프트 인젝션에 대한 책임 추적성 강화

공격자가 주입한 명령이 실행되더라도 유효한 HDP 토큰이 없음을 확인하여 사후 감사에서 비정상적인 동작을 즉시 식별할 수 있는 증거 체인을 제공한다.

핵심 아이디어 이해하기

기존의 인증 방식인 OAuth 2.0이나 JWT는 주로 '누가 누구에게 접근 권한을 주는가'라는 점대점(Point-to-point) 관계에 집중한다. 하지만 에이전트 시스템에서는 인간이 A 에이전트에게 시킨 일이 B, C를 거쳐 최종 도구 실행 에이전트 D까지 전달될 때, D 입장에서 이 명령이 정말 인간으로부터 온 것인지 확인할 방법이 끊어지는 '책임성 간극'이 발생한다.

HDP는 이를 해결하기 위해 블록체인의 해시 체인과 유사한 구조를 토큰에 도입했다. 인간의 최초 서명을 루트(Root)로 두고, 이후 각 에이전트가 다음 에이전트에게 일을 넘길 때마다 자신의 작업 요약을 기존 토큰 뒤에 덧붙이고 서명하는 방식이다. 이 과정에서 이전 단계의 모든 서명값이 현재 서명의 입력값으로 포함되므로, 중간에 누군가 내용을 수정하거나 가짜 단계를 끼워 넣으면 전체 체인의 검증이 실패하게 된다.

결과적으로 최종 실행 단계에 있는 에이전트는 복잡한 네트워크 통신 없이도 전달받은 토큰 하나만 검사하여, 이 명령이 어떤 경로를 거쳐 왔으며 최초에 인간이 허용한 범위(Scope) 내에 있는지를 수학적으로 확신할 수 있다.

방법론

HDP 토큰은 JSON 구조로 설계되었으며 hdp(버전), header(수명 및 세션), principal(인간 식별자), scope(권한 범위), chain(위임 기록), signature(루트 서명)의 6개 필드로 구성된다. scope 필드에는 자연어 형태의 의도(intent)와 최대 허용 단계(max_hops), 데이터 분류 등의 제약 사항을 명시하여 에이전트의 행동 반경을 정의한다.

암호화 구현에는 Ed25519 알고리즘과 RFC 8785 JSON 표준화(Canonicalization) 방식을 사용한다. 루트 서명은 [header + principal + scope + 빈 chain]을 입력으로 받아 생성되며, 이후 각 홉(Hop)의 서명은 [이전 서명값 + 이전 홉들 + 현재 홉의 데이터]를 입력으로 연산하여 출력된 값을 첨부한다. 검증자는 이 체인을 역순으로 계산하여 모든 서명이 일치하는지 확인하며, 특히 header의 session_id가 현재 활성화된 세션과 일치하는지 대조하여 토큰 재사용 공격을 방지한다.

주요 결과

Ed25519 서명 검증은 현대적인 하드웨어에서 100마이크로초(μs) 미만으로 완료되는 매우 가벼운 연산임을 확인했다. 일반적인 10단계(Hop)의 위임 체인을 가진 토큰의 경우, 전체 검증에 2밀리초(ms) 미만이 소요되어 실시간 에이전트 파이프라인에 적용하기에 충분한 성능을 보였다.

토큰의 크기는 10단계 위임 시 약 4-8KB 수준으로 유지되어 네트워크 오버헤드가 적다. 또한 프롬프트 인젝션 공격 시나리오에서, 공격자가 생성한 가짜 명령은 유효한 서명 체인을 생성할 수 없으므로(발행자의 개인키가 없기 때문), 실행 단계에서 즉시 차단되거나 사후 감사에서 100% 탐지 가능한 것으로 분석되었다.

기술 상세

HDP는 IETF 인터넷 드래프트(draft-helixar-hdp-agentic-delegation-00)로 제안된 프로토콜이다. 기존 UCAN이나 IPP와 달리 DID(탈중앙화 식별자) 인프라나 중앙 취소 레지스트리(Revocation Registry)에 의존하지 않는 것이 특징이다. 대신 짧은 유효 기간과 세션 바인딩을 통해 보안성을 확보한다.

v0.1 버전에서는 발행자의 단일 키를 사용하여 모든 홉을 서명하는 방식을 채택하여 키 관리의 복잡성을 줄였으나, 향후 v0.2에서는 각 에이전트가 고유한 키로 서명하는 방식과 임계치 서명(Threshold Signature)을 통한 다중 인간 승인 기능을 추가할 계획이다. 구현 측면에서는 TypeScript SDK가 공개되어 있으며, CrewAI 및 MCP(Model Context Protocol)와의 통합 패턴을 제공한다.

한계점

현재 v0.1 버전은 발행자의 키 하나로 모든 홉을 서명하므로, 특정 홉을 기록한 에이전트의 개별 신원을 증명하기보다는 '발행자가 해당 홉의 기록을 승인했음'만을 보장한다. 또한 토큰은 에이전트의 행동이 선언된 범위(Scope)와 일치하는지 기록할 뿐, 이를 강제로 집행(Enforcement)하는 기능은 애플리케이션 계층의 몫으로 남겨두고 있다.

실무 활용

금융 결제, 코드 커밋, 데이터 수정 등 중요한 작업을 수행하는 멀티 에이전트 워크플로우에 즉시 도입 가능하다.

인간의 승인이 필요한 자금 이체 에이전트의 권한 검증
프롬프트 인젝션으로 인한 에이전트의 비정상적 API 호출 탐지
여러 에이전트가 협업하는 환경에서의 단계별 책임 소재 감사(Audit)

코드 공개 여부: 공개

코드 저장소 보기

키워드

Agentic AI(에이전트형 AI)Delegation Provenance(위임 출처)Cryptographic Authorization(암호학적 권한 부여)Prompt Injection(프롬프트 인젝션)Ed25519(Ed25519 알고리즘)