bfloat16
구글이 개발한 16비트 부동소수점 형식으로, FP32와 동일한 지수 범위를 가지면서 메모리 사용량을 절반으로 줄여 딥러닝 학습 효율을 높인다.
Character.AI가 공개한 6비트 그래디언트 압축과 효율적 학습 비결
대역폭 75% 부족해도 학습 성공? Character.ai의 6비트 그래디언트 압축 기술 공개