라운드 로빈 토너먼트
참가한 모든 팀이나 모델이 서로 한 번씩 돌아가며 대결하는 경기 방식이다. 이 실험에서는 LLM들이 서로 영웅과 악당 역할을 번갈아 수행하며 실력을 겨루어 모델 간의 상대적 성능을 객관적으로 평가하는 데 사용됐다.