자동 혼합 정밀도
학습 시 FP32와 FP16 정밀도를 혼합하여 사용하여 연산 속도를 높이고 메모리 사용량을 줄이는 기술이다. 수치적 안정성을 위해 스케일러(Scaler)를 사용하여 그래디언트 소실을 방지한다.