본문으로 건너뛰기
SpecBench: 장기 호라이즌 코딩 에이전트에서 보상 해킹 측정 | AI Trends