Claude Code의 불안정한 결과물을 제어하는 로컬 우선 디스패처, GeneralStaff

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 코딩 에이전트의 작업 결과를 테스트와 스코프 제한으로 자동 검증하여 실패 시 롤백하는 오픈소스 디스패처 GeneralStaff를 소개한다.

배경

AI 코딩 에이전트가 테스트 실패나 스코프 이탈 등 잘못된 결과를 확신에 차서 완료 처리하는 문제를 해결하기 위해, 작업 검증 게이트를 갖춘 오픈소스 디스패처 GeneralStaff를 개발했다.

섹션별 상세

AI 코딩 에이전트의 '자신감 있는 거짓 완료' 문제: 에이전트가 테스트를 통과하지 못하거나 프로젝트 범위를 벗어난 코드를 작성해도 작업을 완료한 것으로 간주하는 현상이 발생한다.

yaml

projects:
  - id: myapp
    path: /home/ray/myapp
    engineer_command: "claude -p --dangerously-skip-permissions"
    verification_command: "bun test && bun x tsc --noEmit"
    cycle_budget_minutes: 30
    hands_off:
      - src/pricing.ts
      - src/auth/
      - CLAUDE.md

GeneralStaff에서 프로젝트를 등록하고 에이전트의 작업 명령과 검증 명령, 접근 제한 경로를 설정하는 예시입니다.

검증 게이트(Verification Gate) 도입: 에이전트가 작업을 수행한 후, 별도의 검증 에이전트가 JSON 형식으로 테스트 통과 여부, 스코프 준수 여부, 접근 금지 파일 수정 여부를 확인한다.

Git Worktree를 활용한 격리: 에이전트의 작업은 별도의 Git worktree에서 수행되며, 검증 실패 시 롤백하여 메인 브랜치를 안전하게 보호한다.

실무 성능 데이터: GeneralStaff 자체 개발 과정에서 210건의 검증 중 19건(약 9%)이 게이트에 의해 차단되었으며, 이는 에이전트의 실수를 실시간으로 걸러낼 수 있음을 입증한다.

실무 Takeaway

AI 코딩 에이전트의 결과물을 신뢰하기 위해서는 테스트 스위트와 스코프 제한을 포함한 자동화된 검증 단계가 필수적이다.
Git worktree를 활용하면 에이전트의 작업 환경을 메인 코드베이스와 분리하여 실패 시 안전하게 롤백할 수 있다.
검증 단계에서 구조화된 JSON 출력을 요구하면 에이전트의 판단 결과를 정량적으로 추적하고 로그로 남길 수 있다.

언급된 리소스

GitHubGeneralStaff GitHub Repository

projects: - id: myapp path: /home/ray/myapp engineer_command: "claude -p --dangerously-skip-permissions" verification_command: "bun test && bun x tsc --noEmit" cycle_budget_minutes: 30 hands_off: - src/pricing.ts - src/auth/ - CLAUDE.md

Claude Code의 불안정한 결과물을 제어하는 로컬 우선 디스패처, GeneralStaff

핵심 요약

배경

섹션별 상세

실무 Takeaway

언급된 리소스

Claude Code의 불안정한 결과물을 제어하는 로컬 우선 디스패처, GeneralStaff

핵심 요약

배경

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드