FLUX.2-dev 캐릭터 LoRA 학습 가이드 및 설정 공유 (Ostris AI-Toolkit)

핵심 요약

FLUX.2-dev 모델에서 Ostris AI-Toolkit을 사용하여 캐릭터 LoRA를 학습시킨 상세 설정과 데이터셋 전략, 그리고 InsightFace를 통한 성능 검증 결과를 공유한다.

배경

FLUX.2-dev 모델을 기반으로 캐릭터 LoRA를 학습시키기 위해 Ostris AI-Toolkit과 RunPod H100 환경에서 실험을 진행했다. 학습률, 랭크(Rank), 캡션 전략 등 최적의 설정을 찾고 InsightFace 유사도 점수를 통해 결과를 검증한 내용을 정리했다.

의미 / 영향

FLUX.2-dev는 이전 버전과 아키텍처가 달라 전용 설정과 도구가 필요함이 확인됐다. 캐릭터 LoRA 학습 시 데이터셋의 다양성과 캡션 전략이 정체성 고착 방지에 핵심적인 역할을 하며, Gemini API를 활용한 후처리가 실사 품질 향상에 유효한 대안으로 나타났다.

커뮤니티 반응

작성자의 상세한 설정 공유에 대해 긍정적인 반응이며, 특히 FLUX.2 전용 설정값과 InsightFace를 이용한 수치적 검증 방식이 유용하다는 평가이다.

실용적 조언

FLUX.2-dev 학습 시 반드시 arch: 'flux2'를 사용하고 quantize_te: true를 활성화할 것
캐릭터 LoRA 학습 시 캡션에서 눈동자 색이나 피부 톤 등 고정할 특징은 생략하여 유연성을 확보할 것
액세서리 고착 방지를 위해 데이터셋의 최소 30%는 장신구가 없는 이미지로 구성할 것
추론 시 Rank 64 LoRA는 강도를 1.0으로 설정하여 정체성 발현을 극대화할 것

전문가 의견

FLUX.2는 Mistral 24B를 텍스트 인코더로 사용하므로 기존 T5 기반 FLUX.1 학습 방식과 완전히 분리하여 접근해야 한다.
LoRA Rank가 높을수록 정체성이 여러 차원에 분산되므로 추론 시 더 높은 가중치(Strength)가 필요하다는 점을 실험으로 증명했다.

언급된 도구

Ostris AI-Toolkit추천

FLUX.2 LoRA 학습 프레임워크

RunPod추천

H100 GPU 클라우드 인프라

InsightFace추천

캐릭터 유사도 검증 및 벤치마크

Gemini 3 Pro추천

생성 이미지 피부 질감 개선 후처리

SeedVR2추천

4K 업스케일링 및 디테일 강화

섹션별 상세

RunPod의 H100 SXM 80GB 단일 GPU를 사용하여 1024 해상도에서 스텝당 약 2.8초의 속도를 기록했다. 3500 스텝 학습에 약 3시간이 소요되었으며 비용은 약 8달러가 발생했다. 멀티 GPU(2x H100) 구성은 LoRA 학습 속도 향상에 전혀 도움이 되지 않아 비용 낭비임을 확인했다. PyTorch 2.8.0 템플릿 환경에서 안정적으로 구동됐다.

FLUX.2-dev 학습 시 'arch: flux2' 설정을 반드시 사용해야 하며, FLUX.1용인 'is_flux: true'를 사용하면 메타 텐서 복사 오류가 발생한다. 또한 FLUX.2는 Mistral 24B 텍스트 인코더를 사용하므로 'quantize_te: true' 설정이 필수적이다. 텍스트 인코더 학습은 제외하고 UNet만 학습시키는 것이 안정적인 결과로 이어졌다.

학습률(LR) 5e-5에서 가장 안정적인 결과를 얻었으며, 4e-4는 모델 붕괴를 초래했다. Rank 32와 64를 비교했을 때, Rank 64는 더 많은 파라미터를 사용하여 정체성(Identity)을 넓게 분산시키므로 추론 시 LoRA 강도를 1.0으로 높게 설정해야 했다. InsightFace 유사도는 최고 0.753을 기록했으며, 전신 샷보다는 클로즈업에서 점수가 높게 나타났다.

데이터셋에서 액세서리가 포함된 이미지가 많으면 LoRA에 해당 요소가 고착(Baking)되어 프롬프트로 제거가 불가능해지는 문제를 발견했다. 이를 해결하기 위해 액세서리가 없는 이미지를 포함하고, 캡션 작성 시 고정하고 싶은 특징은 기술하지 않고 변화시키고 싶은 요소만 기술하는 전략을 사용했다. 캡션 드롭아웃(Dropout)은 0.02로 낮게 설정하여 정체성 유출을 방지했다.

생성된 이미지의 피부 질감을 개선하기 위해 Gemini 3 Pro API를 활용한 스킨 인핸스먼트가 가장 효과적이었다. FLUX.1용 LoRA는 FLUX.2와 아키텍처가 달라 호환되지 않으며, FaceDetailer 역시 FLUX.2의 가이더 파이프라인과 호환되지 않아 피부를 뭉개뜨리는 부작용이 있었다. 업스케일링에는 SeedVR2 4K 모델을 사용해 디테일을 보강했다.

실무 Takeaway

FLUX.2-dev 학습 시 'arch: flux2'와 텍스트 인코더 양자화 설정이 필수적이다.
캐릭터 정체성 유지를 위해 Rank 32~64, LR 5e-5 설정이 권장된다.
캡션에 고정 속성을 적지 않아야 생성 시 유연성이 확보되며 액세서리 고착을 피하려면 데이터셋 다양성이 중요하다.
FLUX.1과 FLUX.2는 LoRA 및 도구 호환성이 낮으므로 전용 워크플로우를 구축해야 한다.
피부 리얼리즘 향상을 위해 Gemini API를 활용한 후처리가 기존 FaceDetailer보다 우수한 결과를 냈다.