핵심 요약
대규모 클라우드 네이티브 환경에서 내부 모니터링 시스템이 놓치는 '사각지대' 장애를 고객의 피드백을 통해 실시간으로 포착하는 기술입니다. 수만 건의 노이즈 섞인 민원 데이터 속에서 단 3건의 유사 사례만으로도 정확한 장애 징후를 식별하여 수백만 달러의 잠재적 금융 손실을 방지합니다.
왜 중요한가
대규모 클라우드 네이티브 환경에서 내부 모니터링 시스템이 놓치는 '사각지대' 장애를 고객의 피드백을 통해 실시간으로 포착하는 기술입니다. 수만 건의 노이즈 섞인 민원 데이터 속에서 단 3건의 유사 사례만으로도 정확한 장애 징후를 식별하여 수백만 달러의 잠재적 금융 손실을 방지합니다.
핵심 기여
LLM 기반 하이브리드 이벤트 연결 엔진
Locality-Sensitive Hashing(LSH)의 효율성과 LLM의 고차원 추론 능력을 결합하여, 서로 다른 표현의 고객 민원을 하나의 공통된 위험 이벤트로 정확히 통합함.
다차원 노이즈 제거 파이프라인
도메인 지식 기반 필터링, 통계적 동적 베이스라인, 행동 제약 조건을 통합하여 비장애 상황에서의 알람 폭풍을 94.3% 억제함.
계층적 라우팅 메커니즘
키워드 기반 정밀 매칭과 벡터 검색 기반 고재현율 매칭을 결합한 2단계 구조를 통해 인시던트를 적절한 대응 팀에 95% 이상의 정확도로 배분함.
핵심 아이디어 이해하기
기존의 장애 탐지는 주로 시스템 로그나 메트릭에 의존하지만, 사용자가 체감하는 실제 문제는 이러한 지표에 즉각 반영되지 않는 경우가 많다. 고객의 민원 텍스트는 이를 보완할 핵심 신호지만, 구어체 표현의 다양성과 막대한 노이즈 때문에 소수의 데이터만으로 장애를 확신하기 어렵다는 한계가 있다.
TingIS는 이를 해결하기 위해 Embedding 공간에서의 유사도 계산과 LLM의 문맥 이해력을 단계적으로 활용한다. 먼저 LSH를 통해 수만 건의 데이터를 빠르게 그룹화한 뒤, LLM이 각 그룹의 대표성을 검증하고 정제된 요약을 생성함으로써 데이터의 밀도를 높인다. 이는 마치 거친 그물로 먼저 대상을 거르고 현미경으로 정밀 분석하는 것과 같다.
결과적으로 '결제가 안 돼요'와 '로딩이 멈췄어요'처럼 겉보기에 다른 표현들을 '결제 모듈 장애'라는 하나의 기술적 원인으로 수렴시킨다. 이를 통해 단 3건의 민원만 발생해도 이를 유의미한 장애 신호로 인지하고 대응 팀에 즉시 알릴 수 있는 SNR(신호 대 잡음비)을 확보한다.
방법론
전체 시스템은 5개의 모듈(M1~M5)로 구성된 3계층 아키텍처를 따른다. 첫 번째 단계인 Semantic Distillation(M1)에서는 Qwen3-8B 모델을 사용하여 원문 민원에서 감정적 표현과 개인정보를 제거하고 '주체+문제' 형식의 표준 요약을 생성한다. [비정형 텍스트 입력] → [LLM 프롬프트 제약 조건 적용] → [표준화된 요약 출력] → [의미적 핵심 정보 보존]
이후 Cascaded Routing(M2) 단계에서 키워드 지식 베이스와 BGE-M3 임베딩 기반의 벡터 검색을 병렬로 수행하여 해당 민원이 어느 비즈니스 도메인(biz_code)에 속하는지 판별한다. [요약 텍스트 입력] → [키워드 매칭 및 벡터 검색] → [비즈니스 코드 할당] → [정확한 대응 부서 지정]
핵심인 Event Linking Engine(M3)은 LSH를 이용해 배치 내 인시던트를 1차 클러스터링하고, Kimi-K2 모델이 클러스터의 순도를 검증한다. 과거 장애 이력과의 연관성을 계산할 때는 s* = s · e^(-kΔt) 수식을 적용한다. [현재 유사도 s와 시간 간격 Δt 입력] → [지수 함수를 통한 시간 가중치 적용] → [최종 점수 s* 산출] → [오래된 이벤트와의 잘못된 병합 방지 및 시간적 근접성 강조]
관련 Figure

고객의 음성/텍스트 민원이 입력되어 M1(증류)부터 M5(노이즈 제거)까지 흐르는 과정을 보여준다. 특히 지식 메모리(III)와 실시간 엔진(II)이 상호작용하며 과거 이력을 참조하는 구조가 핵심이다.
데이터 관찰층, 의미 지능 엔진, 장기 지식 메모리로 구성된 TingIS의 전체 시스템 아키텍처 다이어그램.
주요 결과
Ant Group의 실제 운영 환경(일일 30만 건 처리)에 배포된 결과, 고위험 인시던트에 대해 95%의 발견율을 기록했다. 특히 P90 알람 지연 시간은 3.5분으로 측정되어, 기존의 주기적 배치 처리 방식(5~15분)보다 훨씬 빠른 대응이 가능해졌다.
오프라인 벤치마크 테스트에서 TingIS는 노이즈 제거를 적용하지 않았을 때 발생하는 512개의 알람을 29개로 줄여 94.3%의 노이즈 감소율을 보였다. 이벤트 당 알람 비율(Event-to-Alert Ratio)은 1.23으로 나타나, 이상적인 수치인 1.0에 근접하며 알람 피로도를 획기적으로 낮췄음을 입증했다.
기술 상세
TingIS 아키텍처는 LLM의 높은 인지 능력과 전통적인 알고리즘의 효율성을 결합한 하이브리드 지능을 지향한다. M1에서 생성된 요약은 BGE-M3를 통해 고차원 벡터로 변환되어 시스템 전반의 의미적 기초가 된다. M3 모듈은 단순한 클러스터링을 넘어 시간적 감쇠(Time-decay) 메커니즘을 도입하여 장기적인 이벤트 정체성을 유지하면서도 과거 데이터에 의한 간섭을 최소화한다.
성능 최적화를 위해 ThreadPoolExecutor를 통한 병렬 처리를 구현했으며, LLM 호출 비용을 관리하기 위해 s* > 0.95인 경우 LLM 판단을 생략하는 임계값 게이팅(Threshold-gating) 전략을 사용한다. 이를 통해 하루 25만 건의 인시던트를 처리하면서도 LLM 토큰 소비량을 8.0M 수준으로 억제하여 운영 효율성을 확보했다.
한계점
순수 임베딩 기반 클러스터링이 가질 수 있는 '주체맹(Subject-blindness)' 문제, 즉 '실패'라는 단어에만 집중하여 서로 다른 비즈니스 로직의 장애를 하나로 묶어버리는 한계가 존재할 수 있음을 명시했다.
실무 활용
대규모 트래픽을 처리하는 핀테크, 이커머스, 클라우드 서비스 기업에서 고객 상담 데이터나 앱 리뷰를 실시간 장애 탐지 신호로 전환하는 데 즉시 활용 가능하다.
- 금융 플랫폼의 실시간 결제 장애 및 설정 오류 탐지
- 이커머스 서비스의 특정 상품군 결제/배송 관련 집단 민원 감지
- 대규모 앱 서비스의 업데이트 직후 발생하는 잠재적 버그 식별
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.