AIRS-벤치
AIRS-Bench는 LLM 연구 에이전트를 평가하는 표준 벤치마크로서 Composer, LRA, Autoresearch 등 서로 다른 연구 문제를 포함하는 연구 루프의 구축/평가 프레이임워크를 제공한다.