본문으로 건너뛰기
ACES: 누가 테스트를 테스트하는가? 코드 생성을 위한 리브-원-아웃 AUC 일관성 측정 | AI Trends