learning-rate
모델이 가중치를 업데이트할 때 적용하는 보폭을 결정하며, 너무 크면 최적점을 지나치고 너무 작으면 학습이 지나치게 느려진다.
40분 만에 끝난 LoRA 학습, 강도 2.0에서만 작동하는 이유는?
Wan 2.1 LoRA 학습, 왜 얼굴만 안 닮을까? 커뮤니티의 해결책은?