ID-LoRA: In-Context LoRA를 활용한 아이덴티티 기반 오디오-비디오 개인화

왜 중요한가

기존의 영상 생성 AI는 영상과 음성을 따로 만들어 합치는 방식이라 입모양이 안 맞거나 배경음 조절이 어려웠습니다. ID-LoRA는 하나의 모델이 영상과 소리를 동시에 계산하여, 사용자가 입력한 텍스트에 맞춰 인물의 목소리 톤과 주변 소음까지 완벽하게 어우러진 결과물을 만들어냅니다.

핵심 기여

ID-LoRA 통합 프레임워크

영상과 음성을 별도의 단계 없이 단일 패스(single pass)로 생성하여 시각적 외모와 목소리 정체성을 동시에 보존하는 최초의 In-Context LoRA 기반 개인화 기술임.

Negative Temporal Positions 도입

참조 토큰을 RoPE(Rotary Positional Embedding) 공간의 음수 영역에 배치하여 생성 대상 토큰과 명확히 분리함으로써, 참조 데이터의 시간적 구조는 유지하면서도 간섭을 방지함.

Identity Guidance 메커니즘 설계

Classifier-free guidance를 변형하여 참조 신호 유무에 따른 예측값의 차이를 증폭함으로써, 노이즈 제거 과정에서 희석되기 쉬운 화자의 고유한 음색과 특징을 강화함.

고효율 학습 및 강력한 성능

단일 GPU에서 약 3,000개의 학습 데이터 쌍만으로 학습이 가능하며, 상용 모델인 Kling 2.6 Pro 대비 화자 유사도에서 73%의 선호도를 기록함.

핵심 아이디어 이해하기

기존 영상 생성 시스템은 영상 모델과 음성 모델을 각각 따로 학습시킨 뒤 이어 붙이는 Cascaded 방식을 사용한다. 이 방식은 영상 속 인물의 입모양과 소리를 맞추기 어렵고, 특히 텍스트 프롬프트로 바람 부는 야외에서 화난 목소리로 말해달라고 요청해도 참조 음성이 조용한 스튜디오에서 녹음되었다면 그 특성이 그대로 유지되어 배경음과 목소리 톤이 어색해지는 한계가 있다. ID-LoRA는 LTX-2라는 통합 DiT 백본을 기반으로 영상과 음성 데이터를 하나의 잠재 공간에서 처리한다. 핵심은 In-Context LoRA 기법을 확장하여 참조 이미지와 참조 음성을 생성 대상 데이터와 시퀀스 차원에서 결합하는 것이다. 이때 Negative Temporal Positions라는 기법을 사용하여, 참조 데이터의 위치 정보를 음수 영역에 할당함으로써 모델이 참조 데이터와 새로 만들어야 할 결과물을 명확히 구분하게 만든다. 결과적으로 모델은 영상의 시각적 특징과 음성의 청각적 특징 사이의 상관관계를 직접 학습하게 된다. 이를 통해 텍스트 프롬프트가 영상의 배경뿐만 아니라 음성의 잔향이나 화자의 감정 상태까지 동시에 제어할 수 있게 되어, 물리적으로 훨씬 자연스럽고 정체성이 잘 보존된 멀티모달 콘텐츠 생성이 가능해진다.

방법론

LTX-2 기반의 통합 아키텍처를 사용함. 48개 레이어의 DiT 백본을 통해 영상(14B 파라미터)과 음성(5B 파라미터) 잠재 변수를 양방향 교차 모달 어텐션으로 처리함. 영상은 Video VAE로, 음성은 Mel Spectrogram 기반의 Audio VAE로 인코딩하여 동일한 시퀀스 차원에서 결합함. Negative Temporal Positions 기법을 적용함. [참조 오디오 토큰의 시간 인덱스 t_ref를 입력으로] → [pretrained 위치 범위를 벗어난 음수 영역에 할당하는 연산을 수행] → [대상 토큰과 겹치지 않는 위치 임베딩 값을 얻음] → [Attention 연산 시 참조 데이터와 생성 대상 데이터가 명확히 구분되어 정체성 전이가 정확해짐]. Identity Guidance를 도입함. [참조 조건이 있는 예측값과 없는 예측값을 입력으로] → [두 값의 차이를 구하고 가이드 스케일을 곱해 무조건부 예측값에 더하는 연산을 수행] → [최종 노이즈 예측값을 얻음] → [텍스트 프롬프트의 영향은 유지하면서 화자의 고유한 음색과 리듬만을 선택적으로 증폭함].

주요 결과

CelebV-HQ 및 TalkVid 데이터셋 실험 결과, ID-LoRA는 화자 유사도와 입술 동기화 지표에서 기존 SOTA 모델들을 압도함. 특히 Cross-video 설정에서 Kling 2.6 Pro 대비 화자 유사도가 24% 향상되었으며, CLAP 점수를 통해 텍스트 프롬프트에 대한 음향 환경의 순응도가 훨씬 높음이 입증됨. 인간 선호도 조사에서 73%의 평가자가 ID-LoRA의 목소리 유사성이 Kling 2.6 Pro보다 우수하다고 답했으며, 말하기 스타일 면에서도 65%의 선택을 받음. 또한 물리적 상호작용(물건 떨어지는 소리, 박수 소리 등)에 대한 MOS 테스트에서 3.05점을 기록하여 상용 모델(2.90점)보다 뛰어난 물리적 일관성을 나타냄.

실무 활용

인물의 외모와 목소리를 동시에 보존하면서 새로운 환경과 대사를 생성할 수 있어, 고품질 디지털 휴먼 및 콘텐츠 제작에 즉시 활용 가능함. 특히 적은 데이터(3K 쌍)로도 학습이 가능해 특정 인물에 맞춘 개인화 모델 구축 비용이 저렴함.

다국어 더빙 시 화자의 원래 목소리 톤과 감정을 유지하면서 입모양까지 맞춘 영상 제작
개인화된 AI 아바타를 활용한 교육 및 마케팅 영상 자동 생성
언어 장애가 있는 사용자를 위한 본인 목소리 기반의 실시간 영상 통화 보조 도구

기술 상세

아키텍처는 LTX-2의 비대칭 듀얼 스트림 트랜스포머를 활용하며, 영상 스트림은 3D RoPE를, 음성 스트림은 1D RoPE를 사용하여 시공간적 특징을 학습함. In-Context LoRA(IC-LoRA)를 멀티모달로 확장하여, 참조 이미지와 참조 음성 클립을 타겟 노이즈 잠재 변수와 결합하여 셀프 어텐션 메커니즘이 모달 간 정체성 대응 관계를 직접 찾도록 유도함. 학습 시 소스 분리 기술을 적용해 참조 음성에서 배경 소음을 제거한 Clean Speech만 사용함으로써, 모델이 참조의 환경을 단순히 복제하지 않고 텍스트 프롬프트에 명시된 새로운 환경음을 생성하도록 강제함. 구현 측면에서 Rank 128의 LoRA를 사용하며, NVIDIA H100 GPU 1대에서 6,000 스텝만으로 수렴이 가능할 정도로 파라미터 효율적인 학습 구조를 갖추고 있음.

한계점

현재 모델은 단일 화자 시나리오에 최적화되어 있으며, 다수 화자가 등장하는 복잡한 장면이나 교차 언어(Cross-lingual) 생성, 일반적인 오디오-비디오 참조 기반 영상 생성에 대해서는 향후 연구가 필요함.

키워드

ID-LoRA(아이덴티티 기반 로라)In-Context LoRA(인컨텍스트 로라)Audio-Video Diffusion(오디오-비디오 확산 모델)Identity Guidance(정체성 가이드)RoPE(회전 위치 임베딩)