테스트 스위트
소프트웨어의 특정 기능을 검증하기 위해 작성된 테스트 케이스들의 집합으로, 에이전트가 수정한 코드의 정상 작동 여부를 판단하는 기준이 된다.
"에이전트 추론이 나빠지고 있나요?" 신뢰할 수 있는 평가 지표 찾기
벤치마크 밖의 현실: mini-SWE-agent는 실제 프로젝트에서 쓸만한가?
AI가 오픈 소스를 통째로 복제한다? tldraw의 파격적인 대응과 반전