본문으로 건너뛰기
harness-bench: 로컬 LLM과 에이전트 하네스 성능 벤치마크 분석 | AI Trends