텍스트아레나
텍스트아레나는 LLM 에이전트의 성능과 규칙 준수 능력을 측정하기 위해 설계된 다양한 텍스트 기반 게임 환경 벤치마크이다. 1인용 및 2인용 게임을 포함한 145개의 시나리오를 제공하여 모델이 복잡한 환경 제약 조건을 얼마나 잘 이해하고 실행하는지 평가한다.