Veritas: AI 에이전트를 위한 인식론적 신뢰도 구조 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

AI 에이전트가 주장의 근거와 신뢰도를 수학적 벡터와 시간적 감쇠 모델을 통해 체계적으로 관리할 수 있게 돕는 Veritas 프레임워크가 공개됐다.

배경

AI 에이전트가 구조화되지 않은 신뢰도를 바탕으로 행동하는 문제를 해결하기 위해, 증거의 출처와 유효 기간을 수학적으로 계산하는 Veritas 라이브러리를 개발하여 공유했다.

의미 / 영향

AI 에이전트의 신뢰도 판단이 블랙박스 형태의 확률값에서 벗어나 근거의 출처, 다양성, 시간적 유효성을 포함한 구조적 데이터로 진화하고 있다. 특히 정보의 유형별로 감쇠율을 다르게 적용하는 방식은 장기 기억을 가진 에이전트 시스템 설계에 중요한 시사점을 제공한다.

실용적 조언

도메인 특화 데이터를 다룰 경우 모순 탐지 임계값(0.48)을 해당 분야의 코퍼스에 맞춰 재조정하여 사용하라.
증거의 성격에 따라 수학적 증명은 감쇠율을 0으로 설정하여 지식의 영속성을 보장하라.

섹션별 상세

AI 에이전트의 주장에 다차원 신뢰도 벡터를 도입했다. 모든 클레임은 신뢰도 값 외에도 최적 소스 제거 시의 신뢰도 하락폭인 취약성(Fragility), 증거 노후화에 따른 페널티, 소스 다양성을 함께 저장한다. 이를 통해 에이전트가 단순히 답변을 내놓는 것을 넘어 해당 정보가 얼마나 잘 뒷받침되고 있는지 구조적으로 파악할 수 있다.

python

1 - prod(1 - w_i)

독립적인 소스들의 신뢰도를 중복 계산 없이 결합하는 Noisy-OR 풀링 수식

독립적인 증거들이 결합될 때 신뢰도가 강화되는 방식을 Noisy-OR 풀링으로 구현했다. 1 - prod(1 - w_i) 공식을 사용하여 상관관계가 없는 소스들이 결합될 때 신뢰도가 복리로 증가하되, 동일한 소스가 중복 계산되지 않도록 처리한다. 이 방식은 서로 다른 출처의 증거가 일치할 때 에이전트의 확신을 정교하게 높여주는 역할을 한다.

정보의 유형에 따라 차등적인 시간적 감쇠 모델을 적용했다. 수학적 증명(Mathematical)은 감쇠율이 0으로 영구적이지만, 일화적 증거(Anecdotal)는 2년, 경험적 증거(Empirical)는 10년의 반감기를 가지도록 지수 함수적 감쇠를 설정했다. 이는 시간이 지남에 따라 낡은 정보의 영향력을 자동으로 줄여 에이전트의 지식을 최신화하는 데 기여한다.

문장 임베딩을 활용해 의미론적 모순을 탐지하는 시스템을 구축했다. sentence-transformers의 all-MiniLM-L6-v2 모델을 사용하며, 코사인 유사도 임계값을 0.48로 설정하여 어휘가 다르더라도 의미가 상충하는 주장을 잡아낸다. 실험 결과 이 임계값에서 관련성 있는 문장 쌍과 실제 모순되는 문장 쌍을 가장 효과적으로 구분해냈다.

실무 Takeaway

AI 에이전트의 신뢰도를 단순 수치가 아닌 Fragility와 Staleness를 포함한 벡터로 관리하여 의사결정의 투명성을 높였다.
Noisy-OR 풀링을 통해 독립적인 소스들의 증거가 결합될 때 신뢰도가 논리적으로 강화되도록 설계했다.
정보 유형별로 다른 시간적 감쇠율을 적용하여 지식의 유효 기간을 수학적으로 모델링했다.
임베딩 기반 모순 탐지를 통해 서로 다른 표현을 사용한 상충하는 주장들을 효과적으로 식별할 수 있다.

언급된 도구

veritas-epistemic추천

AI 에이전트의 인식론적 신뢰도 및 증거 관리 프레임워크

sentence-transformers추천

의미론적 모순 탐지를 위한 문장 임베딩 생성

언급된 리소스

GitHubVeritas GitHub Repository