Wan 2.1 LoRA 학습 시 얼굴 유사도 문제 해결을 위한 Musubi Tuner 설정 최적화 논의

핵심 요약

Wan 2.1 14B 모델의 LoRA 학습 중 의상과 체형은 잘 구현되나 얼굴 유사도가 떨어지는 문제를 해결하기 위해 하이퍼파라미터와 데이터셋 전략을 분석한다.

배경

사용자가 Wan 2.1 14B 모델을 대상으로 Musubi Tuner를 사용하여 캐릭터 LoRA를 학습시키고 있으나, 기존 Hunyuan Video 모델과 달리 얼굴 유사도가 확보되지 않아 커뮤니티에 기술적 조언을 구했다.

의미 / 영향

Wan 2.1과 같은 대형 비디오 생성 모델의 LoRA 학습은 기존 SDXL이나 Hunyuan 모델과는 다른 파라미터 튜닝 전략이 요구된다. 특히 얼굴 유사도 문제는 데이터셋 해상도와 드롭아웃 설정이 결정적인 변수가 됨이 확인됐다.

커뮤니티 반응

사용자의 구체적인 설정값 공유에 대해 유사한 문제를 겪는 이들이 관심을 보이고 있으며, 주로 드롭아웃 설정과 데이터셋 해상도에 대한 지적이 이어지고 있다.

주요 논점

01중립다수

현재 설정에서 드롭아웃을 제거하고 학습률을 미세 조정하여 얼굴 유사도를 다시 테스트해야 한다.

합의점 vs 논쟁점

합의점

캐릭터 유사도 학습 시 드롭아웃은 세부 특징 손실을 유발할 수 있다.
Wan 2.1 14B 모델은 이전 세대 모델보다 더 정밀한 데이터셋 관리가 필요하다.

실용적 조언

network_dropout 값을 0.1에서 0으로 변경하여 얼굴 세부 특징이 보존되도록 한다.
데이터셋 해상도를 1024x1024 이상으로 높여 모델이 더 많은 얼굴 정보를 학습하게 한다.
learning_rate를 1e-4에서 약간 낮추거나 lr_scheduler 설정을 변경하여 수렴 안정성을 높인다.

언급된 도구

Musubi Tuner중립

Wan 2.1 및 Flux 모델 학습을 위한 튜닝 도구

Wan 2.1추천

14B 파라미터 규모의 최신 텍스트-비디오 생성 모델

섹션별 상세

Wan 2.1 14B 모델의 LoRA 학습 설정 분석 결과이다. 사용자는 AdamW8bit 옵티마이저와 1e-4의 학습률을 사용하며, 네트워크 차원 64와 알파 32 설정을 적용했다. 특히 timestep_sampling을 flux_shift로 설정하고 discrete_flow_shift를 1.0으로 지정하여 학습을 진행 중이나 얼굴 세부 묘사에서 한계가 나타났다.

데이터셋 구성 및 캡셔닝 전략의 한계점이다. 640x640 해상도의 이미지 50-100장을 사용하며, 80%가 중간 클로즈업 샷으로 구성되어 있다. 고유 토큰 사용과 젠더 기반 이름 등 다양한 캡셔닝 방식을 시도했음에도 불구하고 얼굴 유사도 개선에는 큰 효과가 없었다는 점이 확인됐다.

네트워크 드롭아웃 설정이 학습 품질에 미치는 영향이다. 사용자는 network_dropout 0.1을 적용했는데, 이는 과적합을 방지하는 효과가 있지만 캐릭터의 고유한 얼굴 특징과 같은 세밀한 정보 학습을 방해할 가능성이 크다. 유사도가 중요한 캐릭터 LoRA 학습에서는 드롭아웃을 0으로 설정하는 것이 일반적인 권장 사항이다.

Hunyuan Video와의 성능 비교 및 모델 아키텍처 차이이다. 동일한 데이터셋으로 Hunyuan Video에서는 좋은 결과를 얻었으나 Wan 2.1에서는 실패하고 있는 점은 모델의 잠재 공간(Latent Space)이나 학습 도구의 구현 방식 차이에서 기인할 수 있다. 14B 규모의 대형 모델인 Wan 2.1은 더 높은 해상도의 데이터셋이나 정교한 학습률 스케줄링을 요구할 수 있다.

실무 Takeaway

Wan 2.1 LoRA 학습 시 얼굴 유사도 확보를 위해서는 network_dropout 설정을 0으로 조정하는 것이 필수적이다.
14B 모델의 성능을 극대화하기 위해 640x640 이상의 고해상도 데이터셋 사용을 검토해야 한다.
학습률(Learning Rate)과 알파(Alpha) 값의 비율을 조정하여 얼굴 특징이 가중치에 더 강하게 반영되도록 유도해야 한다.