TL;DR
소규모 팀에서 여러 에이전트가 PR을 검토하는 워크플로를 운영하던 중, 동일한 PR에 대해 시간에 따라 판정이 달라지는 비결정성 문제가 발생했다. 문제의 원인은 코드가 아니라 심판 역할을 하는 에이전트의 판단 기준이 실행마다 달라지는 데 있었고, 이에 따라 판정 기준의 고정성·재현성이 요구됐다. 프롬프트 안에 더 많은 규칙을 집어넣는 시도는 컨텍스트가 길어질수록 규칙이 누락되거나 'vibe'에 의존하는 현상으로 이어져 해결책이 되지 못했다. 대안으로는 판정을 별도 스킬 파일로 분리해 리포지토리에 버전 관리하고, 에이전트가 매 실행 이 스킬을 로드하게 하며 독립 판정과 'not sure' 일괄 중단 정책을 적용한 사례가 제시됐다. 이 방법은 판정의 일관성을 눈에 띄게 개선했으나 처리 속도가 느려지고 때로 지나치게 세부적으로 멈추는 단점이 있었다. 작성자는 스킬 파일·프롬프트·파인튜닝 등 대안 간의 트레이드오프를 묻고 있으며, 현재는 스킬 파일 방식이 재현성 측면에서 실무적으로 유효하다는 결론이 도출되었다.
실용적 조언
- 리뷰·평가 기준을 매 실행마다 동일하게 적용하려면 규칙을 프롬프트가 아닌 리포지토리에 버전 관리되는 스킬 파일로 분리해 에이전트가 실행 시 불러오게 하면 재현성이 확보된다.
- 합의 메커니즘을 보수적으로 설계해 각 에이전트의 독립 판정 중 하나라도 'not sure'면 병합을 중단하도록 하면 일관성은 높아지지만 처리 속도가 느려질 수 있으니 트레이드오프를 인정해야 한다.
섹션별 상세
실무 Takeaway
- 리뷰 규칙을 리포지토리에서 버전 관리되는 스킬 파일로 분리하면 에이전트가 매 실행 동일한 규칙을 불러와 판단 재현성을 확보할 수 있으므로 판정 일관성이 개선된다.
- 프롬프트에 규칙을 길게 집어넣는 방식은 초기에는 동작해도 컨텍스트가 길어지면 규칙 무시나 'vibe' 의존 현상이 발생해 장기 유지에 취약하다.
- 독립 판정(pass) 구조에서 어느 하나가 'not sure'를 반환하면 병합을 중단하는 보수적 정책을 적용하면 과거의 비결정적 통과를 막을 수 있으나 처리 지연과 과도한 검증이 부작용으로 나타난다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.