핵심 요약
기존 CT 촬영은 수백 장의 투영 데이터가 필요해 방사선 노출 위험이 컸으나, 이 논문은 적은 수의 촬영 데이터만으로도 고화질 3D 영상을 복원하는 기술을 제안합니다. 확산 모델의 강력한 이미지 복원 능력을 3D 신경 표현 기술과 결합하여 의료 진단의 안전성과 정확성을 동시에 높일 수 있는 길을 열었습니다.
왜 중요한가
기존 CT 촬영은 수백 장의 투영 데이터가 필요해 방사선 노출 위험이 컸으나, 이 논문은 적은 수의 촬영 데이터만으로도 고화질 3D 영상을 복원하는 기술을 제안합니다. 확산 모델의 강력한 이미지 복원 능력을 3D 신경 표현 기술과 결합하여 의료 진단의 안전성과 정확성을 동시에 높일 수 있는 길을 열었습니다.
핵심 기여
DiffNR 프레임워크 제안
글로벌 신경 표현(NR) 최적화 과정에 조건부 확산 모델인 SliceFixer를 통합하여 희소 뷰 CT 재구성 시 발생하는 아티팩트를 효과적으로 제거하는 새로운 구조를 설계했다.
SliceFixer 모듈 개발
SD-Turbo 기반의 단일 단계 확산 모델을 CT 슬라이스 복원에 맞게 미세 조정했다. 바이플래너 X-ray 투영 데이터를 조건부 입력으로 사용하여 구조적 정확도를 높였다.
수리 및 증강(Repair-and-Augment) 전략
매 최적화 단계마다 확산 모델을 호출하는 대신, 주기적으로 가짜 참조 볼륨(Pseudo-reference volume)을 생성하여 최적화를 가이드함으로써 연산 효율성을 확보했다.
핵심 아이디어 이해하기
기존의 신경 표현(Neural Representation) 방식은 적은 수의 X-ray 사진(Sparse-view)만으로 3D 구조를 학습할 때, 정보가 부족한 영역에서 노이즈나 줄무늬 같은 아티팩트가 심하게 발생하는 한계가 있다. 이는 모델이 물리적 제약 조건만으로는 빈 공간을 어떻게 채워야 할지 모르기 때문에 발생하는 문제이다.
DiffNR은 이 문제를 해결하기 위해 이미지 생성 분야에서 검증된 확산 모델(Diffusion Model)의 '복원 능력'을 빌려온다. 구체적으로, 현재 학습 중인 불완전한 3D 모델에서 단면 슬라이스를 뽑아내고, 이를 확산 모델인 SliceFixer에 통과시켜 깨끗한 이미지로 고친다. 이렇게 고쳐진 이미지는 다시 3D 모델이 정답처럼 참고해야 할 '참조 가이드' 역할을 수행하게 된다.
결과적으로 3D 모델은 물리적 투영 데이터와의 일관성을 유지하면서도, 확산 모델이 제공하는 고화질 단면 정보를 학습에 반영하게 된다. 이를 통해 기존 방식보다 훨씬 적은 데이터로도 노이즈가 적고 해부학적 구조가 뚜렷한 3D CT 영상을 얻을 수 있게 된다.
방법론
DiffNR은 신경 표현(NAF 또는 R2-Gaussian)을 백본으로 사용하며, 여기에 SliceFixer라는 확산 기반 복원 모듈을 결합한다. SliceFixer는 SD-Turbo를 기반으로 하며, LoRA 어댑터와 제로 컨볼루션 레이어를 추가하여 CT 도메인에 최적화되었다.
SliceFixer의 입력 c는 텍스트 프롬프트 ct와 두 개의 직교 X-ray 투영 Ia, Ib를 결합하여 생성된다. [Ia, Ib, ct → RAD-DINO Encoder → Cross-Attention → c] 과정을 거쳐 확산 모델에 구조적 가이드를 제공한다. 학습 시에는 의도적으로 과소적합(Underfitting)시킨 데이터셋을 사용하여 모델이 아티팩트 패턴을 익히고 이를 제거하도록 유도한다.
최적화 단계에서는 매 l번의 반복마다 현재 볼륨에서 슬라이스를 쿼리하고 SliceFixer로 정제하여 가짜 참조 볼륨 V_hat을 생성한다. 이후 3D SSIM 손실 함수를 통해 현재 볼륨 V와 V_hat 사이의 유사도를 계산한다. [V, V_hat → 3D SSIM → Loss] 연산을 통해 모델은 확산 모델이 제안한 깨끗한 구조를 닮아가도록 가중치를 갱신한다.
관련 Figure

신경 표현(NR) 최적화 루프에 확산 모델 기반의 SliceFixer가 어떻게 개입하여 참조 볼륨을 생성하고 피드백을 주는지 시각화한다. 이미지 손실, 저수준 Prior, 확산 Prior가 단계별로 적용되는 과정을 설명한다.
DiffNR의 전체 파이프라인 구조를 보여주는 다이어그램이다.
주요 결과
ToothFairy 및 LUNA16 데이터셋 실험 결과, DiffNR은 기존 신경 표현 방식 대비 평균 3.99dB의 PSNR 향상을 기록했다. 특히 12-view와 같은 극단적인 희소 뷰 설정에서 NAF 백본에 적용 시 PSNR이 26.22dB에서 28.10dB로, R2-Gaussian 백본에서는 22.63dB에서 29.71dB로 크게 개선되었다.
효율성 측면에서도 기존의 반복적 확산 기반 방식인 DiffusionMBIR이 한 케이스 처리에 11시간 이상 소요되는 반면, DiffNR은 약 8~11분 내외로 처리를 완료하여 실용성을 입증했다. 또한 학습에 사용되지 않은 외부 데이터셋(OOD)에서도 우수한 일반화 성능을 보이며 아티팩트를 효과적으로 억제했다.
관련 Figure

SART, NAF, R2-Gaussian 등 기존 방식에서 나타나는 심한 노이즈와 줄무늬 아티팩트가 DiffNR 적용 시 획기적으로 줄어들고 지면의 수치(PSNR/SSIM)가 개선됨을 보여준다.
다양한 뷰 수(36, 24, 12)에 따른 기존 방식과 DiffNR의 재구성 결과 비교 사진이다.
기술 상세
DiffNR은 3D 일관성을 유지하기 위해 글로벌 NR을 최적화하면서 2D 확산 모델의 강력한 Prior를 활용하는 하이브리드 접근법을 취한다. SliceFixer는 단일 단계(Single-step) 추론이 가능한 SD-Turbo를 활용하여 최적화 루프 내에서의 병목 현상을 최소화했다. 특히 복셀 단위의 L1 손실 대신 3D SSIM 기반의 지각적 손실 함수를 도입하여 확산 모델 특유의 환각(Hallucination) 현상을 억제하고 해부학적 구조의 무결성을 보존한다. 데이터 큐레이션 단계에서 다양한 희소도와 아티팩트 패턴을 시뮬레이션하여 모델의 강건성을 확보한 것이 핵심이다.
한계점
확산 모델이 매우 미세한 가짜 세부 사항(Hallucinated details)을 생성할 가능성이 여전히 존재하며, 이는 의료 진단에서 오진의 원인이 될 수 있으므로 주의가 필요하다. 또한 2D 슬라이스 기반 복원으로 인해 슬라이스 간 지터(Inter-slice jitter)가 완전히 제거되지 않을 수 있다.
실무 활용
적은 방사선 노출로도 고해상도 CT 재구성이 가능해져 의료 진단의 안전성을 높일 수 있으며, 기존 장비의 소프트웨어 업데이트만으로도 성능 향상을 기대할 수 있습니다.
- 저선량 희소 뷰 CT 촬영을 통한 환자 방사선 피폭 최소화
- 응급 상황에서의 빠른 3D 장기 구조 복원 및 진단 보조
- 치과용 CBCT 등 소형 장비의 영상 품질 개선
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

DiffNR로 복원된 영상이 실제 의료 분석 작업(세그멘테이션)에서 더 높은 정확도를 보임을 입증하며, SliceFixer의 해상도와 손실 함수 설정이 결과에 미치는 영향을 시각적으로 비교한다.
폐 세그멘테이션 결과 및 SliceFixer의 구성 요소별 절제 실험 결과이다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.