핵심 요약
대화형 AI가 단순히 말을 하는 것을 넘어, 사람처럼 고개를 끄덕이거나 자세를 바꾸는 등 비언어적 반응을 생성하는 기술이다. 기존에는 한 가지 정답 동작만 학습했지만, 이 논문은 하나의 말에도 여러 적절한 반응이 있을 수 있다는 점을 반영해 훨씬 자연스러운 상호작용을 가능하게 한다.
왜 중요한가
대화형 AI가 단순히 말을 하는 것을 넘어, 사람처럼 고개를 끄덕이거나 자세를 바꾸는 등 비언어적 반응을 생성하는 기술이다. 기존에는 한 가지 정답 동작만 학습했지만, 이 논문은 하나의 말에도 여러 적절한 반응이 있을 수 있다는 점을 반영해 훨씬 자연스러운 상호작용을 가능하게 한다.
핵심 기여
ReactMotionNet 데이터셋 구축
151,328개의 화자 발화-청취자 동작 쌍을 포함하며, 하나의 발화에 대해 여러 후보 반응을 Gold, Silver, Negative 세 단계의 선호도로 라벨링한 최초의 대규모 데이터셋이다.
통합 멀티모달 생성 프레임워크 ReactMotion
텍스트, 오디오, 감정 정보를 이산 토큰으로 변환하여 통합 처리하고, 화자의 발화에 대응하는 적절하고 다양한 3D 동작 시퀀스를 생성하는 Seq2Seq 모델을 제안했다.
그룹 단위 선호도 학습 기법 도입
동일 발화에 대한 여러 수준의 반응을 그룹으로 묶어 상대적 순위를 학습시키는 Group-wise Preference Learning을 통해 모델이 정적인 자세로 수렴하는 문제를 해결했다.
멀티모달 Judge 기반 평가 프로토콜
단순 유사도 측정을 넘어 생성된 동작의 적절성을 정교하게 평가할 수 있는 멀티모달 판별기 네트워크를 구축하여 새로운 평가 기준을 제시했다.
핵심 아이디어 이해하기
기존의 동작 생성 모델은 주로 텍스트 설명에 직접 대응하는 동작을 만들거나 오디오 비트에 맞춘 춤을 생성하는 데 집중했다. 하지만 실제 대화에서 청취자의 반응은 화자의 의도나 감정에 따라 매우 다양하게 나타나는 일대다(One-to-Many) 관계이며, 이를 단순히 하나의 정답(Ground Truth)으로만 학습하면 모델이 평균적인, 즉 정적인 자세로 수렴해버리는 문제가 발생한다.
이 논문은 이 문제를 해결하기 위해 선호도 학습(Preference Learning) 개념을 도입한다. 화자의 발화에 대해 매우 적절(Gold), 어느 정도 적절(Silver), 부적절(Negative)한 동작들을 그룹으로 묶어 학습시킨다. 모델은 특정 동작 하나를 복제하는 대신, Gold 동작의 점수가 Silver나 Negative보다 높게 나오도록 확률 분포를 조정하며 학습한다.
결과적으로 모델은 화자의 말(텍스트), 목소리 톤(오디오), 감정 상태를 종합적으로 이해하여 상황에 맞는 역동적이고 다양한 반응을 생성할 수 있게 된다. 이는 가상 아바타나 소셜 로봇이 인간과 더 깊은 유대감을 형성하는 데 기여한다.
방법론
전체 구조는 T5-base 백본을 기반으로 한 Seq2Seq 모델이다. 화자의 발화(텍스트), 오디오(MiMi Neural Audio Codec), 감정 레이블을 각각 전용 토크나이저를 통해 이산적 토큰(Discrete Tokens)으로 변환하여 입력 시퀀스를 구성한다.
동작 생성부에서는 VQ-VAE를 사용하여 3D 동작 시퀀스를 토큰화한다. [입력 토큰 시퀀스 → T5 Decoder의 자기회귀(Autoregressive) 생성 → 동작 토큰 출력 → VQ-VAE Decoder 복원] 과정을 거쳐 최종 3D 동작을 얻는다.
학습 시에는 Group-wise Preference Learning을 적용한다. 동일 발화에 대한 {Gold, Silver, Negative} 동작 세트를 구성하고, 각 동작의 로그 가능도(Log-likelihood)를 계산한다. [동작 토큰 시퀀스의 조건부 확률 합산 → 길이 정규화 → 점수 산출] 과정을 통해 얻은 점수들에 Soft-margin Ranking Loss를 적용하여 ℓG > ℓS > ℓN 순서를 강제한다.
주요 결과
ReactMotion은 Win Rate 지표에서 기존 Retrieval 방식이나 LLM 기반 캐스케이드 모델을 압도했다. 특히 전체 모달리티(T+A+E)를 사용했을 때 Gold 기준 승률(Win(g>N)) 1.000, Silver 대비 승률(Win(g>S)) 0.797을 기록하며 가장 우수한 성능을 보였다.
동작의 품질을 나타내는 FID 지표에서도 4.760을 기록하여, LLM-T2M-GPT(42.589)나 LLM-MG-MotionLLM(25.723) 등 기존 생성 파이프라인보다 훨씬 실제 인간의 동작 분포에 가까운 결과를 생성했다.
Ablation Study 결과, 역빈도 가중치(Inverse-frequency reweighting)를 제거했을 때 성능 하락이 가장 컸다. 이는 데이터셋 내에서 빈번하게 등장하는 일반적인 동작(예: 가만히 서 있기)에 모델이 편향되는 것을 방지하는 것이 중요함을 시사한다.
실무 활용
가상 상담원, 디지털 휴먼, 소셜 로봇 등 인간과 상호작용하는 시스템에서 청취자의 비언어적 반응을 자동 생성하는 데 즉시 활용 가능하다. 특히 실시간 대화 시스템에 통합되어 사용자 경험의 몰입도를 높일 수 있다.
- 가상 현실(VR) 내 NPC의 실시간 반응 생성
- 디지털 휴먼 기반의 고객 상담 서비스
- 자폐 스펙트럼 장애 아동을 위한 소셜 스킬 훈련 로봇
- 영화 및 게임 애니메이션 제작 시 청취자 배경 캐릭터 자동 생성
기술 상세
아키텍처는 T5-base(222.9M 파라미터)를 확장하여 텍스트(32,100), 오디오(2,048), 동작(512) 토큰을 포함하는 63,338 크기의 통합 어휘집을 사용한다. 오디오는 Moshi의 MiMi 코덱을 사용하여 8개의 코드북 중 베이스 코드북을 활용해 양자화한다.
데이터셋 구축을 위해 Inverse Speaker-Condition Synthesis 파이프라인을 제안했다. 기존 HumanML3D의 동작 캡션을 기반으로 LLM(o3-mini)을 이용해 해당 동작을 유발했을 법한 화자의 발화와 감정을 역으로 생성하고, TTS(GPT-4o mini)로 오디오를 합성한 뒤 필터링 과정을 거쳤다.
평가를 위해 별도로 학습된 Multimodal Judge Network는 화자의 입력(T, A, E)과 생성된 동작 토큰을 각각 인코딩한 후, Fusion Transformer를 통해 결합된 컨텍스트 임베딩(zf)과 동작 임베딩(zm) 사이의 코사인 유사도를 계산하여 적절성 점수를 산출한다.
학습 손실 함수는 ℓG를 최대화하는 동시에, 레이블 간의 마진(m=0.5)을 유지하는 Ranking Loss(Lrank)를 결합한 형태다. 또한 Modality Dropout(p=0.3)을 적용하여 특정 입력 정보가 누락된 상황에서도 견고한 성능을 유지하도록 설계되었다.
한계점
복잡한 대화 맥락에서 깊은 의도를 파악하여 반응하는 데는 여전히 한계가 있으며, 아주 길거나 모호한 상황에서의 견고성이 부족할 수 있다. 또한 현재 아키텍처는 효율성을 위해 비교적 단순하게 설계되어 있어 향후 더 정교한 네트워크 구조로의 발전 여지가 남아 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료