제어 가능한 단일 이미지 재조명을 위한 잠재 프록시 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

사진 한 장만으로 조명의 방향, 세기, 색온도를 정밀하게 조절하는 기술이다. 기존의 복잡한 3D 데이터 없이도 물리적으로 자연스러운 그림자와 반사광을 생성할 수 있어 제품 사진 편집이나 가상 스테이징의 효율을 극대화한다.

왜 중요한가

핵심 기여

LightCtrl 프레임워크

물리적 가이드를 잠재 프록시 형태로 주입하여 정밀한 조명 제어를 구현함.

ScaLight 데이터셋

30만 개 이상의 객체와 100만 장 이상의 이미지를 포함한 대규모 조명 제어 데이터셋을 구축함.

조명 인식 마스크(Lighting-aware Mask)

조명 변화에 민감한 영역을 식별하여 디노이징 과정을 공간적으로 제어함.

DPO 기반 사후 학습

희소한 PBR 데이터를 극복하기 위해 직접 선호도 최적화를 적용하여 물리적 일관성을 강화함.

핵심 아이디어 이해하기

Diffusion 기반 재조명은 이미지 전체의 픽셀을 재구성하려 시도하지만, 이 과정에서 물체의 고유한 기하학적 구조나 재질이 손상되는 경우가 많다. 특히 조명은 그림자나 하이라이트처럼 특정 영역에만 비선형적인 변화를 일으키는데, 기존 모델은 이러한 물리적 제약 없이 Latent Space에서만 연산하므로 결과물이 비현실적으로 변하는 한계가 존재한다. LightCtrl은 '잠재 프록시(Latent Proxy)'를 통해 이 문제를 해결한다. 이는 물체의 모든 물리적 속성을 완벽하게 복원하는 대신, 조명 변화에 대응하는 데 필수적인 최소한의 기하학적 단서(법선, 반사율 등)만을 추출하여 모델에 주입하는 방식이다. 여기에 조명 인식 마스크를 추가하여 모델이 어느 부분을 수정해야 하는지를 명확히 인지하게 한다. 이를 통해 배경이나 물체의 고유 색상은 보존하면서도, 조명 방향에 따른 그림자의 이동이나 빛의 세기에 따른 밝기 변화를 물리적으로 일관되게 표현하는 것이 가능해진다.

방법론

전체 시스템은 Stable Diffusion 백본 위에 외형, 조명, 프록시라는 세 가지 독립적인 토큰을 입력받는 구조이다. 조명 제어를 위해 Yaw-Pitch 좌표를 Spherical Harmonics(SH) 계수로 변환하는 방식을 사용한다. [사용자의 조명 각도 편집값을 입력으로] → [2차 Spherical Harmonics 기저 함수에 투영하여] → [9개의 계수 차분값을 얻고] → [이 값이 조명의 회전 및 변화량을 수치화하여 모델의 조명 토큰으로 활용됨] Latent Proxy Encoder는 소수의 PBR 데이터를 활용해 물체의 물리적 특성을 추출한다. [소스 이미지 x_s를 입력으로] → [PBREncoder E_phi를 통해 8채널 맵을 연산하여] → [알베도, 노멀, 거칠기, 금속성 정보를 얻고] → [이 정보가 공간 풀링을 거쳐 프록시 토큰으로 변환되어 UNet의 Cross-Attention 레이어에 주입됨] Lighting-aware Mask는 조명 변화에 민감한 픽셀을 식별하여 디노이징 과정을 가이드한다. [소스와 타겟 이미지의 휘도 값을 입력으로] → [로그 스케일에서의 차분 및 스무딩 연산을 수행해] → [[0, 1] 범위의 소프트 마스크를 얻고] → [이 마스크가 Attention 가중치를 조절하여 조명 변화 영역에 연산량을 집중시킴]

주요 결과

ScaLight 벤치마크 평가 결과, LightCtrl은 PSNR 30.2dB, RMSE 0.053을 기록하며 기존 모델인 IC-Light(PSNR 8.21dB)나 LumiNet(PSNR 15.8dB)을 압도했다. 특히 조명 방향 변경 실험에서 RMSE가 베이스라인 대비 35% 이상 낮게 나타나 정밀한 제어 능력을 입증했다. Ablation Study를 통해 각 모듈의 기여도를 분석한 결과, DPO 사후 학습을 제거했을 때 PSNR이 22.8dB로 급감하여 물리적 일관성 유지에 DPO가 핵심임을 확인했다. 또한 조명 인식 마스크가 없을 경우 알베도 보존 능력이 저하되어 이미지의 고유 색상이 왜곡되는 현상이 관찰됐다. 실제 환경 이미지(In-the-wild)를 활용한 사용자 선호도 조사에서 81.45%의 압도적인 선택을 받았다. 이는 모델이 합성 데이터로 학습되었음에도 불구하고, 실제 스마트폰 촬영 이미지의 복잡한 배경과 조명 조건에서도 안정적으로 작동함을 의미한다.

기술 상세

LightCtrl 아키텍처는 CLIP-ViT 기반의 외형 인코더와 MLP 기반의 조명 인코더, 그리고 PBREncoder를 통합한 UNet 구조를 가진다. 각 인코딩 결과는 토큰화되어 Cross-Attention 레이어에서 융합되는데, 네트워크의 초기 레이어는 외형 토큰에 집중하여 물체의 정체성을 유지하고, 깊은 레이어는 조명 및 프록시 토큰을 활용해 세부적인 쉐이딩과 하이라이트를 합성한다. 물리적 일관성을 확보하기 위해 DPO(Direct Preference Optimization) 사후 학습을 도입했다. 이는 레이블이 부족한 상황에서도 모델이 물리적으로 올바른 프록시를 생성하도록 유도한다. 정답 PBR 데이터를 선호 샘플로, 모델의 현재 출력을 비선호 샘플로 설정하여 두 출력 간의 물리적 보상 차이를 극대화하는 손실 함수를 통해 인코더를 미세 조정한다. 대규모 데이터셋인 ScaLight는 30만 개 이상의 3D 객체와 100만 장 이상의 렌더링 이미지를 포함하며, 모든 데이터는 정밀한 카메라 및 조명 메타데이터를 갖추고 있다. 이는 기존 데이터셋 대비 수십 배 큰 규모로, 모델이 다양한 재질과 복잡한 조명 환경에서도 일반화된 재조명 능력을 학습할 수 있는 기반이 된다.

한계점

복잡한 전역 조명(Global Illumination)이 포함된 어수선한 실제 장면에서는 제어 성능이 다소 저하된다. 특히 멀리 떨어진 물체 사이의 날카로운 그림자 재투영(Cast-shadow recasting)이나 강한 반사광이 집중된 영역에서의 세부 질감 손실이 한계점으로 지적된다.

실무 활용

사진 한 장만으로 조명의 방향, 세기, 색온도를 정밀하게 조절할 수 있어 상업용 제품 사진 편집의 패러다임을 바꿀 수 있는 기술이다. 복잡한 3D 모델링이나 전문 조명 세팅 없이도 물리적으로 자연스러운 재조명 결과를 얻을 수 있어 콘텐츠 제작 비용을 획기적으로 절감한다.

이커머스 제품 사진의 조명 각도 및 분위기 자동 보정
가상 인테리어 디자인 시 가구와 주변 환경의 조명 일치화
모바일 인물 사진에 스튜디오급 조명 효과 적용 및 편집
3D 렌더링 에셋의 후처리 재조명 파이프라인 구축

코드 공개 여부: 비공개

키워드

Image Relighting(이미지 재조명)Diffusion Model(확산 모델)Latent Proxy(잠재 프록시)DPO(직접 선호도 최적화)ScaLight Dataset(스카라이트 데이터셋)Controllable AI(제어 가능한 AI)