분산 학습(distributed-training)이란 무엇인가요?

Question

Accepted Answer

단일 머신의 자원을 초과하는 대규모 모델이나 데이터를 처리하기 위해 여러 대의 컴퓨터(노드)와 GPU를 연결하여 동시에 학습을 진행하는 기법이다. 학습 시간을 단축하고 대형 모델 수용을 가능하게 하지만 노드 간 통신 및 동기화 관리가 복잡하다.

distributed-training