집합 통신 연산
여러 계산 노드(GPU/TPU) 간에 데이터를 동시에 주고받는 통신 방식이다. All-reduce, Broadcast 등이 포함되며 대규모 분산 학습의 병목을 줄이는 데 핵심적이다.