3시의 PagerDuty 알람에 지쳐 GLM-5.1 기반 클라우드 장애 복구 AI 에이전트를 개발하다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

GLM-5.1을 추론 엔진으로 활용하여 멀티 클라우드 장애를 감지하고 복구 시나리오를 제안하며 과거 사례를 학습하는 자율 SRE 에이전트 프로젝트이다.

배경

작성자는 야간 장애 알람으로 인한 수동 복구 작업의 고충을 해결하기 위해 GLM-5.1 모델을 활용한 자율 클라우드 복구 오케스트레이터인 Vyuha AI를 개발했다.

의미 / 영향

이 프로젝트는 SRE 업무가 단순 대시보드 모니터링에서 AI 에이전트 기반의 자율 인프라 관리로 진화할 수 있음을 보여준다. 특히 LLM의 추론 결과에 대한 인간의 승인 절차와 과거 사례를 참고하는 메모리 구조는 실무 환경에서 AI 에이전트를 안전하게 운영하기 위한 핵심 설계 패턴으로 평가된다.

커뮤니티 반응

대체로 긍정적이며, 실제 SRE 환경에서의 적용 가능성과 복잡한 엣지 케이스에 대한 심도 있는 논의가 이루어졌다.

합의점 vs 논쟁점

합의점

AI 에이전트 도입 시 인간의 승인 절차가 필수적인 안전 장치이다
과거 장애 데이터를 활용한 메모리 시스템이 에이전트의 진단 정확도를 향상시킨다

논쟁점

실제 대규모 데이터센터의 복잡한 네트워크 엣지 케이스에서도 AI가 안전하게 작동할 것인가에 대한 우려

실용적 조언

LLM 에이전트 구축 시 Pydantic 등을 활용하여 프론트엔드와 백엔드 간의 Enum 타입 일치를 철저히 검증할 것
장애 복구 시나리오를 JSON 형태로 구조화하여 제안하도록 프롬프트를 설계하여 자동화 도구와의 연동성을 높일 것
장애 상황을 시뮬레이션할 수 있는 'Chaos Lab' 환경을 구축하여 에이전트의 대응 능력을 사전에 테스트할 것

섹션별 상세

Vyuha AI의 핵심은 장애 감지부터 복구 제안까지 이어지는 '트리아지 루프(Triaging Loop)'이다. 모니터링 루프가 5초마다 노드를 확인하고, 장애 발생 시 현재 프록시 구성과 생존 노드의 응답 시간을 수집하여 GLM-5.1에 전달한다. GLM-5.1은 시니어 SRE처럼 상황을 분석해 트래픽 재분배를 위한 JSON 페이로드를 생성하며, 이를 통해 단순 알람을 넘어선 능동적 대응이 가능해졌다. 실제 GCP 노드를 강제 종료했을 때 시스템이 503 오류를 감지하고 즉시 복구 제안을 생성하는 과정이 확인됐다.

LLM의 신뢰성 문제를 해결하기 위해 '인간 참여형(Human-in-the-Loop)' 철학을 아키텍처에 도입했다. 에이전트가 독단적으로 네트워크 테이블을 수정하는 대신, 복구 방안과 이유를 대시보드에 시각화하여 운영자의 승인을 거치도록 설계했다. 이는 AI의 추론 능력과 인간의 최종 판단력을 결합하여 운영 안정성을 확보하는 실무적 접근법이다. 운영자가 승인 버튼을 누르면 오케스트레이터가 즉시 새로운 프록시 구성을 적용하여 장애를 해소한다.

'진화적 메모리(Evolutionary Memory)' 기능을 통해 과거의 장애 복구 경험을 학습에 활용한다. 장애가 해결되면 '성찰 단계(Reflection Phase)'를 거쳐 원인과 해결책을 SQLite 데이터베이스에 기록하고, 다음 장애 발생 시 관련 이력을 GLM-5.1의 프롬프트에 주입한다. 이 방식은 AI가 동일한 실수를 반복하지 않게 하며 시간이 지날수록 복구 정확도를 높이는 효과를 낸다. AI가 자신의 과거 진단 이력을 읽고 새로운 문제에 대응하는 자가 개선 루프가 구축됐다.

개발 과정에서 Pydantic 유효성 검사 버그로 인해 4시간의 지연이 발생하는 등 타입 안전성의 중요성이 확인됐다. 프론트엔드에서 전달된 소문자 상태값이 백엔드 Enum의 대문자 정의와 일치하지 않아 에이전트가 작동하지 않는 침묵 오류가 발생했다. LLM은 지능적이지만 스택 전반의 타입 불일치 문제는 여전히 개발자가 해결해야 할 과제임이 확인됐다. 이는 AI 에이전트 시스템 구축 시 전통적인 소프트웨어 엔지니어링의 엄격한 검증이 필수적임을 시사한다.

언급된 도구

GLM-5.1추천

장애 원인 분석 및 복구 시나리오 생성을 위한 추론 엔진

FastAPI추천

에이전트의 컨트롤 플레인 및 동적 프록시 서버 구축

SQLite추천

과거 장애 이력 및 복구 사례 저장을 위한 로컬 데이터베이스

Pydantic추천

데이터 유효성 검사 및 타입 안전성 확보

언급된 리소스

DemoZ.ai Hackathon