차분 테스트
동일한 입력을 서로 다른 두 개 이상의 구현체(예: 개발 중인 컴파일러와 GCC)에 제공하고 그 결과를 비교하여 버그를 찾는 기법이다. 에이전트가 자율적으로 정답을 확인하는 데 유용하다.
2만 달러로 만든 10만 줄의 코드, Anthropic이 보여준 AI 에이전트 팀의 미래