결함 허용성
시스템의 일부 하드웨어나 소프트웨어에 장애가 발생하더라도 전체 서비스가 중단되지 않고 작업을 계속 수행할 수 있는 능력이다. 대규모 배치 추론에서는 특정 노드가 죽어도 자동으로 재시도하여 작업을 완수하는 것이 중요하다.