terminal-environment
터미널 기반 실행 환경
터미널 기반 실행 환경은 에이전트가 셸 명령, 스크립트 실행, 파일 읽기/쓰기, 도구 설치 등으로 실제 워크플로를 수행하도록 구성한 컨테이너화된 인터페이스이다. HealthAgentBench에서는 각 과제를 Docker 컨테이너로 패키지해 에이전트가 자유롭게 탐색·도구 호출·출력 제출을 수행하게 하고, 검증 로직은 외부에서 이뤄지게 설계되었다. 이 방식은 에이전트의 계획·툴 사용 능력과 대규모 데이터 조작 능력을 동시에 평가할 수 있게 한다.