NVIDIA RADIO 시리즈: 모든 도메인을 하나로 통합하는 시각 기반 모델 | AI Trends

서울대학교 DSBA 연구실AI/ML조회 8회

NVIDIA RADIO 시리즈: 모든 도메인을 하나로 통합하는 시각 기반 모델

NVIDIA가 개발한 RADIO 시리즈는 CLIP, DINO, SAM 등 서로 다른 강점을 가진 여러 시각 기반 모델을 지식 증류 기법으로 통합하여 범용성과 효율성을 극대화한 연구이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RADIO 시리즈는 다중 교사 증류 기법을 통해 여러 모델의 장점을 단일 모델에 통합했다. 이를 통해 성능 향상은 물론, 상용 라이선스 확보와 고해상도 대응 능력까지 갖춘 범용 시각 인코더를 완성했다.

배경

기존의 시각 기반 모델들은 CLIP(의미 이해), DINO(세부 특징), SAM(경계 감지) 등 각자의 영역에서만 뛰어난 성능을 보이고 다른 영역에서는 취약한 한계가 있었다.

대상 독자

컴퓨터 비전 연구자, 멀티모달 모델 개발자, 효율적인 시각 특징 추출기가 필요한 엔지니어

의미 / 영향

RADIO 시리즈는 거대 모델들을 개별적으로 운영해야 했던 기존의 비효율성을 해결하여 단일 인코더로 모든 시각 태스크를 처리할 수 있는 길을 열었다. 특히 1/10 수준의 파라미터로 최신 거대 모델급 성능을 구현함으로써 온디바이스 AI나 실시간 영상 분석 시스템의 효율성을 획기적으로 개선할 수 있다. 상용 라이선스를 갖춘 C-RADIOv4의 공개로 산업계의 시각 AI 도입 비용이 크게 절감될 것으로 예상된다.

챕터별 상세

00:30

시각 기반 모델 통합의 필요성과 RADIO의 아이디어

CLIP은 제로샷 분류에 강하지만 픽셀 단위 태스크에 약하고, DINO는 세부 특징 추출에 능하나 텍스트 정렬 능력이 부족한 트레이드오프가 존재했다. NVIDIA 연구진은 이러한 개별 모델들의 강점을 하나의 '진짜 Foundation Model'로 합치기 위해 다중 교사 증류(Multi-Teacher Distillation) 방식을 제안했다. 학생 모델은 단일 포워드 패스만으로 제로샷 분류를 위한 요약 토큰과 세그멘테이션을 위한 공간 피처를 동시에 출력하도록 설계됐다. 결과적으로 학생 모델이 교사 모델들의 성능을 오히려 능가하는 '청출어람'의 결과를 확인했다.

Foundation Model은 방대한 데이터로 학습되어 다양한 하위 작업에 적응 가능한 기본 모델을 의미한다.

06:11

AM-RADIO: 다중 도메인 통합을 위한 첫걸음

AM-RADIO는 CLIP, DINOv2, SAM을 교사로 삼아 레이블 없이 피처 자체를 매칭하는 Label-free Distillation을 수행했다. 각 교사 모델의 피처 차원이 다르기 때문에 학생 모델 위에 독립적인 어댑터 헤드(Projection Head)를 두어 각 교사의 특성을 개별적으로 학습시켰다. 특히 벡터의 방향뿐 아니라 크기(Magnitude)까지 맞추는 Smooth L1 손실 함수를 사용하여 SAM의 마스크 디코더를 추가 학습 없이 그대로 갈아 끼워 사용할 수 있는 호환성을 확보했다. 실험 결과 9개의 벤치마크 중 6개에서 교사 모델보다 높은 성능을 기록했다.

Smooth L1 Loss는 이상치에 덜 민감하면서도 정밀한 회귀 학습이 가능한 손실 함수이다.

text

L_summary(x, y) = sum_i lambda_i * L_cos(y_i_summary, z_i_summary)
L_spatial(x, y) = alpha * L_cos(y, z) + beta * L_smooth_l1(x, y)

AM-RADIO에서 Summary 피처와 Spatial 피처를 각각 매칭하기 위해 사용된 손실 함수 수식

26:40

AM-RADIO의 한계: 모드 스위칭 현상

AM-RADIO 학습 시 효율성을 위해 저해상도에서는 CLIP/DINO를, 고해상도에서는 SAM을 매칭하는 분할 학습 스케줄을 사용했다. 이로 인해 모델이 입력 해상도에 따라 내부 동작 모드를 급격히 바꿔버리는 '모드 스위칭(Mode Switching)' 현상이 발생했다. 특정 해상도 경계(720px)에서 피처의 성격이 완전히 달라져 제로샷 성능이 급락하는 부작용이 나타났다. 이는 모델이 해상도 자체를 교사 모델을 선택하는 신호로 오인했기 때문임이 밝혀졌다.

모드 스위칭은 모델이 입력의 특정 속성에 따라 학습된 여러 경로 중 하나로 편향되어 동작하는 현상이다.

29:35

RADIO v2.5: 모드 스위칭 해결과 PHI-S 정규화

RADIO v2.5는 모든 해상도에서 모든 교사를 동시에 학습시키는 멀티 해상도 학습(Multi-Resolution Training)을 도입하여 모드 스위칭 문제를 해결했다. 또한 교사 모델 간의 피처 스케일 차이로 인해 특정 모델(SAM)에 학습이 쏠리는 현상을 막기 위해 PHI-S라는 정규화 기법을 제안했다. PHI-S는 PCA와 Hadamard 행렬을 이용해 정보 손실 없이 모든 채널의 분산을 균일하게 맞춰 학습의 균형을 잡는다. 이를 통해 VLM(Visual Language Model) 태스크에서 기존 대비 큰 폭의 성능 향상을 달성했다.

Hadamard 행렬은 모든 원소가 +1 또는 -1이며 행들이 서로 직교하는 특수한 행렬이다.

44:20

FeatSharp: 저해상도 교사를 고해상도로 끌어올리기

대부분의 VFM 교사 모델은 연산 비용 문제로 저해상도(224px~378px)에서 학습되어 고해상도 입력 시 디테일을 잃는 문제가 있었다. FeatSharp는 JBU(Joint Bilateral Upsampling)와 타이링(Tiling) 기법을 결합하여 저해상도 피처를 정교하게 업샘플링하는 모듈을 제안했다. RGB 이미지의 경계 정보를 가이드로 삼아 피처를 확장함으로써 원래 해상도에서 보이지 않던 미세한 디테일을 복원했다. 또한 모델 내부에 존재하는 고정된 노이즈 패턴을 제거하는 De-bias 버퍼를 학습시켜 피처의 순도를 높였다.

Bilateral Filter는 픽셀 간의 거리뿐 아니라 색상 차이까지 고려하여 경계를 보존하며 노이즈를 줄이는 필터이다.

55:54

C-RADIOv4: 상용화와 최신 교사 모델로의 진화

C-RADIOv4는 연구 단계를 넘어 실제 제품에 적용 가능한 수준의 모델을 목표로 개발됐다. 교사 모델을 SigLIP 2, DINOv3, SAM 3 등 최신 모델로 교체하고 상용 이용이 가능한 라이선스 체계를 구축했다. 학습 시 입력 위치를 무작위로 옮기는 Shift Equivariance 로스를 도입하여 교사 모델의 고정된 노이즈가 학생에게 전이되는 것을 원천 차단했다. 결과적으로 DINOv3 7B 모델과 대등한 성능을 단 1/10 수준의 파라미터(631M)로 구현하는 데 성공했다.

Shift Equivariance는 입력이 이동하면 출력도 동일하게 이동해야 한다는 성질로, 시각 모델의 안정성에 중요하다.

80:00

RADIO 시리즈의 성과와 향후 과제

RADIO 시리즈는 여러 시각 모델을 하나로 묶는 새로운 패러다임을 제시하며 성능과 효율성을 모두 잡았다. 특히 학생 모델이 교사 모델의 약점을 보완하여 더 정확한 마스킹을 수행하는 등 통합의 시너지 효과를 입증했다. 다만 여전히 지식 증류 구조상 교사 모델이 틀린 정보를 줄 경우 학생도 이를 따르게 되는 근본적인 의존성 문제가 남아있다. 향후에는 증류 방식을 넘어선 새로운 통합 학습 방향과 더 다양한 실세계 데이터에 대한 로버스트니스 검증이 필요하다.

로버스트니스(Robustness)는 모델이 예상치 못한 변수나 노이즈가 있는 데이터에서도 안정적으로 성능을 유지하는 능력을 뜻한다.

실무 Takeaway

서로 다른 강점을 가진 시각 모델들을 통합할 때는 단순히 로짓을 합치는 대신 피처 자체를 매칭하는 Label-free Distillation이 효과적이다.
멀티 해상도 학습을 적용하지 않으면 모델이 입력 해상도에 따라 동작 모드를 바꾸는 Mode Switching 현상이 발생하여 성능이 불안정해진다.
PHI-S 정규화 기법을 사용하여 여러 교사 모델의 피처 분산을 균일하게 맞추면 특정 모델에 학습이 편향되는 것을 방지하고 VLM 성능을 높일 수 있다.
Shift Equivariance 로스를 도입하면 교사 모델이 가진 고유의 노이즈나 아티팩트가 학생 모델로 전이되는 문제를 학습 단계에서 차단할 수 있다.

언급된 리소스

논문AM-RADIO (CVPR 2024)

논문RADIOv2.5 (CVPR 2025)

논문FeatSharp (ICML 2025)

논문C-RADIOv4 (arXiv 2026.01)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 10.수집 2026. 05. 10.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.