mfu
하드웨어가 이론적으로 낼 수 있는 최대 연산 성능 대비 실제 모델 학습이나 추론에 사용된 연산량의 비율이다. 이 수치가 낮을수록 하드웨어 자원이 낭비되고 있음을 의미하며 최적화의 여지가 크다는 지표로 활용된다.
H100 1.6만 개로 Llama 3.1 학습하면? MFU 1% 오차로 맞히는 시뮬레이터
70개 이상의 모델과 25종의 GPU를 지원하는 LLM 학습 비용 시뮬레이터
B200부터 3090까지, LLM 추론 및 학습 성능을 미리 계산하는 시뮬레이터
2026년이 싱귤래리티의 분기점? 초지능 도입 시기와 AI 연구 자동화의 미래
수조 개의 파라미터 모델, 수백 개의 GPU로 며칠 만에 학습하는 비결