TL;DR
이 게시물은 단일 MobileNetUNet(약 27.9M 파라미터)을 이용해 RGB→역렌더링 맵(basecolor, normal, roughness/metallic/depth)과 역렌더링 맵→RGB 재구성을 동시에 학습한 연구·프로젝트 공개 내용이다. 학습은 Flickr8k 기반의 paired 데이터로 512×512 해상도, mixed precision(16-bit), AdamW 옵티마이저와 L1+0.5×MSE 손실 조합을 사용했으며, 배치마다 방향을 무작위로 선택해 두 경로를 병렬로 학습함으로써 사이클 일관성을 확보했다. 네트워크는 MobileNetV2 백본(대부분 동결, 마지막 8개 레이어만 미세조정)과 병렬 인코더, 채널·공간 어텐션을 갖춘 UNet 디코더를 사용하고 출력은 각 맵별 1×1 프로젝션으로 구성되며, R/G/B 채널에 각각 roughness/metallic/depth를 배치하는 RMD 포맷을 채택했다. 품질 안정화를 위해 EMA와 타일드 추론(오버랩 블렌딩), 5패스 중앙값 스태킹을 도입했고, 가중치·ONNX(정량화 및 FP)·추론 스크립트·Gradio 데모를 Hugging Face에 CC BY-NC 4.0으로 공개해 재현과 실험적 활용이 가능하다.
실용적 조언
- 경량 백본을 사용할 때는 대부분 계층을 동결하고 마지막 몇 레이어만 미세조정해 학습시간과 메모리 사용을 절감하라; 본 게시물은 MobileNetV2의 마지막 8개 레이어만 학습해 성능-비용 균형을 맞췄다.
- 고해상도 이미지를 대상으로 모델을 적용할 때는 타일드 추론과 오버랩 블렌딩을 도입하고, 노이즈·아티팩트를 줄이려면 다중 패스(예: 5패스) 중앙값 스태킹을 사용하라.
섹션별 상세




실무 Takeaway
- 단일 모델로 RGB→맵과 맵→RGB를 배치 단위로 무작위 학습하면 양방향 경로가 함께 최적화되어 사이클 일관성을 유지하면서도 체크포인트 수를 줄일 수 있다.
- MobileNetV2를 대부분 동결하고 마지막 8개 층만 미세조정하며 병렬 인코더와 UNet 디코더의 어텐션을 결합하면 파라미터 효율성을 유지하면서 공간적 세부 복원이 가능하다.
- 손실은 L1과 0.5×MSE를 조합하고 맵별 가중치(normal에 1.5 등)를 달리해 복원 품질을 태스크 중요도에 맞춰 조정하며, EMA·타일드 추론·5패스 중앙값 스태킹으로 출력 안정성을 추가 확보했다.
- 모델과 ONNX(정량화 포함)·추론 스크립트·Gradio 데모를 공개해 재현 가능성과 실험적 비교를 바로 진행할 수 있도록 배포했다.
언급된 도구
경량화된 백본 아키텍처로서 특성 추출에 사용
인코더-디코더 구조로 맵 복원·스킵 연결에 사용
가중치 감쇠를 포함한 옵티마이저로 학습에 사용
모델을 교환·배포 가능한 포맷으로 변환해 추론에 사용
웹 기반 데모 인터페이스 제공
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.