평가 하네스
AI 모델이나 에이전트의 성능을 특정 벤치마크나 시나리오에서 측정하기 위한 테스트 환경 및 도구 모음이다.
시스템 프롬프트만으론 부족하다? 에이전트 성능을 극대화하는 4단계 프롬프팅 전략
내 컴퓨터에서 안전하게 실행되는 AI 에이전트, LocalAgent 출시