topology-awareness
클러스터 내 서버 간의 물리적인 네트워크 연결 구조나 GPU 간의 연결 상태를 인식하여 작업을 배치하는 기술이다. 데이터 전송 병목을 최소화하기 위해 인접 노드에 작업을 우선 할당한다.
SLURM의 편리함과 Kubernetes의 안정성을 하나로, Slonk 아키텍처 공개
연구자는 Slurm, 인프라는 K8s, Character.ai가 GPU 클러스터 난제를 해결한 방법