단일 MobileNetUNet으로 RGB↔역렌더링(베이스컬러·노멀·RMD·깊이) 공동 학습 — ShadeNet 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

이 게시물은 단일 MobileNetUNet(약 27.9M 파라미터)을 이용해 RGB→역렌더링 맵(basecolor, normal, roughness/metallic/depth)과 역렌더링 맵→RGB 재구성을 동시에 학습한 연구·프로젝트 공개 내용이다. 학습은 Flickr8k 기반의 paired 데이터로 512×512 해상도, mixed precision(16-bit), AdamW 옵티마이저와 L1+0.5×MSE 손실 조합을 사용했으며, 배치마다 방향을 무작위로 선택해 두 경로를 병렬로 학습함으로써 사이클 일관성을 확보했다. 네트워크는 MobileNetV2 백본(대부분 동결, 마지막 8개 레이어만 미세조정)과 병렬 인코더, 채널·공간 어텐션을 갖춘 UNet 디코더를 사용하고 출력은 각 맵별 1×1 프로젝션으로 구성되며, R/G/B 채널에 각각 roughness/metallic/depth를 배치하는 RMD 포맷을 채택했다. 품질 안정화를 위해 EMA와 타일드 추론(오버랩 블렌딩), 5패스 중앙값 스태킹을 도입했고, 가중치·ONNX(정량화 및 FP)·추론 스크립트·Gradio 데모를 Hugging Face에 CC BY-NC 4.0으로 공개해 재현과 실험적 활용이 가능하다.

실용적 조언

경량 백본을 사용할 때는 대부분 계층을 동결하고 마지막 몇 레이어만 미세조정해 학습시간과 메모리 사용을 절감하라; 본 게시물은 MobileNetV2의 마지막 8개 레이어만 학습해 성능-비용 균형을 맞췄다.
고해상도 이미지를 대상으로 모델을 적용할 때는 타일드 추론과 오버랩 블렌딩을 도입하고, 노이즈·아티팩트를 줄이려면 다중 패스(예: 5패스) 중앙값 스태킹을 사용하라.

섹션별 상세

단일 모델로 RGB에서 inverse maps(베이스컬러·노멀·RMD·깊이)로의 변환과 다시 inverse maps에서 RGB로의 재구성을 동시에 학습해 순환(consistency)을 유지하는 것이 목표이며, 배치마다 무작위로 방향을 선택해 두 경로를 병렬로 학습시키므로 모델이 양방향 함수를 모두 학습하도록 설계되었다. 입력 이미지는 512×512로 전처리되어 MobileNetUNet(총 27.9M 파라미터)이 처리하고, 출력은 각 맵별 1×1 프로젝션으로 생성되어 인버스맵과 재구성 RGB가 동일한 네트워크 용량 내에서 표현된다. 근거로 모델 크기(27.9M), 이미지 크기, 학습 방식(무작위 방향 선택)이 명시돼 있어 구조적 타당성이 확보된다. 이렇게 하면 단일 체크포인트로 역렌더링·렌더링을 모두 활용할 수 있어 파이프라인 단순화와 저장소 효율화가 가능하다.

네트워크 설계는 MobileNetV2 백본을 사용하되 마지막 8개 레이어만 미세조정(fine-tune)하고 나머지는 동결해 연산·메모리 비용을 낮췄고, 병렬 인코더로 추가 학습 가능한 피처를 확보한 뒤 UNet 디코더에서 채널·공간 어텐션과 스킵 연결로 공간적 세부를 복원하도록 구성되었다. 출력층은 맵별로 공유된 헤드 트렁크 뒤에 1×1 프로젝션을 두어 태스크별 채널 수에 맞게 분기한다는 점이 어떻게 멀티태스크를 처리하는지를 보여준다. 아키텍처 관련 근거로 백본명, 동결 범위, 어텐션 구성, 출력 채널 구성이 명시돼 있다. 결과적으로 경량 백본과 어텐션을 조합해 추론 비용을 낮추면서도 고해상도 맵 복원을 목표로 했다.

학습 세팅은 Flickr8k 기반 paired inverse-rendered 데이터로 학습했으며 mixed precision(16-bit), AdamW(및 'Prodigy' 표기), L1 + 0.5×MSE 조합의 손실함수를 사용하고 각 맵별 가중치(basecolor=1.0, normal=1.5, RMD=1.0, RGB=1.0)를 부여해 노멀 복원에 더 큰 손실 비중을 둔 점이 특징이다. 안정성과 화질 향상을 위해 EMA를 적용했고, 타일드 추론과 오버랩 블렌딩, 5패스 중앙값 스태킹을 도입해 타일 경계와 노이즈를 줄였다는 구체적 처리파이프라인이 제시됐다. 수치적·기술적 근거로 이미지 크기, 혼합정밀도, 손실 가중치, 다중 패스 후처리 방법이 직접 기재돼 있다. 이러한 설정은 제한된 데이터와 경량 모델 환경에서 품질을 높이기 위한 현실적 트레이드오프를 반영한다.

출력 표현은 Basecolor(3채널 알베도), Normal(3채널 탄젠트 공간 노멀), Roughness/Metallic/Depth을 R/G/B 채널로 묶은 RMD(각각 1채널로 해석) 형태로 저장해 맵 수를 줄이고 I/O를 단순화했다. 이 재구성 포맷은 inverse maps→RGB 재구성 경로와의 정보 전달을 균형 있게 만들며, 네트워크의 출력 채널 설계(각 맵별 1×1 프로젝션)와 일관된다. 증거로 각 출력 맵의 채널 배치와 명칭이 명시되어 있다. 포맷 통일로 후처리·렌더링 파이프라인 통합이 용이해진다.

최종 결과물은 ONNX(정량화 및 FP 버전), 가중치, 추론 스크립트, Gradio 앱으로 공개되어 재현과 배포가 가능하며 Hugging Face 링크가 제공되어 직접 다운로드·데모 실행이 가능하다. 제공 자료에는 모델 파일과 inference 스크립트, 그리고 CC BY-NC 4.0 라이선스가 명시되어 있어 연구·비영리 용도로 활용할 수 있다. 공개 근거로 Hugging Face URL과 배포 형식이 명확히 표기돼 있다. 따라서 다른 연구자나 엔지니어가 해당 체크포인트를 받아 실험·비교하거나 데모에서 정성적 결과를 재확인할 수 있다.

입력 이미지와 대응하는 베이스컬러·노멀·깊이·거칠기/금속성 채널 및 재구성 RGB를 한눈에 보여주는 결과 그리드. — Infographic이 이미지는 모델이 하나의 입력에서 어떤 inverse maps를 추출하는지(베이스컬러, normal, RMD, depth)와 해당 맵으로부터 재구성된 RGB를 정성적으로 비교할 수 있다. 노멀과 베이스컬러의 디테일 재현, 깊이의 콘트라스트, 재구성 RGB의 색상 보존 상태 등 결과 품질 판단에 직접적인 근거를 제공한다.

후면 인물 사진에 대한 입력·맵·재구성 그리드로, 특히 질감과 의복의 재현을 보여줌. — Infographic의복 텍스처와 표면 노멀의 복원 정도를 통해 손실 가중치(특히 normal 가중치 1.5)가 실제로 시각적 디테일 향상에 기여했는지 평가할 수 있다. 또한 재구성 RGB가 원본과 얼마나 유사한지 비교해 재조명·렌더링 적합성을 확인할 수 있다.

해변 장면의 입력과 대응 맵·재구성으로, 배경과 인물 사이의 깊이·경계 복원을 보여줌. — Infographic깊이 맵과 roughness/metallic 채널의 콘트라스트로 인해 배경과 전경 분리가 어떻게 이루어지는지를 판단할 수 있으며, 타일드 추론 후 블렌딩의 경계 처리 성능을 직관적으로 평가할 수 있다. 재구성 RGB 품질은 전역 색상 보정 영향도 확인 가능하다.

레이싱 바이크 장면의 입력·맵·재구성 샘플로, 고속 움직임과 복잡한 형태의 복원 정보를 담음. — Infographic빠른 이동체와 복잡한 표면에서 노멀·깊이 복원 성능과 재구성의 움직임 보존 정도를 비교할 수 있어 모델의 일반화·정밀도 평가에 유용하다. 또한 거칠기·금속성 채널의 디테일 표현이 재질 재현에 충분한지를 보여준다.

실무 Takeaway

단일 모델로 RGB→맵과 맵→RGB를 배치 단위로 무작위 학습하면 양방향 경로가 함께 최적화되어 사이클 일관성을 유지하면서도 체크포인트 수를 줄일 수 있다.
MobileNetV2를 대부분 동결하고 마지막 8개 층만 미세조정하며 병렬 인코더와 UNet 디코더의 어텐션을 결합하면 파라미터 효율성을 유지하면서 공간적 세부 복원이 가능하다.
손실은 L1과 0.5×MSE를 조합하고 맵별 가중치(normal에 1.5 등)를 달리해 복원 품질을 태스크 중요도에 맞춰 조정하며, EMA·타일드 추론·5패스 중앙값 스태킹으로 출력 안정성을 추가 확보했다.
모델과 ONNX(정량화 포함)·추론 스크립트·Gradio 데모를 공개해 재현 가능성과 실험적 비교를 바로 진행할 수 있도록 배포했다.

언급된 도구

MobileNetV2중립

경량화된 백본 아키텍처로서 특성 추출에 사용

UNet중립

인코더-디코더 구조로 맵 복원·스킵 연결에 사용

AdamW중립

가중치 감쇠를 포함한 옵티마이저로 학습에 사용

ONNX중립

모델을 교환·배포 가능한 포맷으로 변환해 추론에 사용

Gradio중립

웹 기반 데모 인터페이스 제공

언급된 리소스

DemoShadeNet — Hugging Face 모델 페이지 (weights, ONNX, demo)