핵심 요약
기존 멀티모달 시스템은 텍스트 외의 정보를 외부 부착물처럼 처리하여 통합이 불완전했다. 이 논문은 이미지와 소리를 텍스트와 같은 이산 토큰으로 변환하여 하나의 언어 모델 안에서 완벽하게 통합하는 DiNA 패러다임을 제시하며, 시각 이해와 생성 작업을 단일 구조에서 SOTA 급 성능으로 구현했다.
왜 중요한가
기존 멀티모달 시스템은 텍스트 외의 정보를 외부 부착물처럼 처리하여 통합이 불완전했다. 이 논문은 이미지와 소리를 텍스트와 같은 이산 토큰으로 변환하여 하나의 언어 모델 안에서 완벽하게 통합하는 DiNA 패러다임을 제시하며, 시각 이해와 생성 작업을 단일 구조에서 SOTA 급 성능으로 구현했다.
핵심 기여
DiNA(Discrete Native Autoregression) 패러다임
모든 모달리티를 공유된 이산 토큰 공간으로 통합하여 단일 디코더 전용 아키텍처에서 텍스트, 비전, 오디오를 동일한 원리로 처리하는 통합 프레임워크를 구축했다.
dNaViT(Discrete Native Any-resolution Visual Transformer)
임의 해상도의 이미지를 계층적 이산 토큰으로 변환하고 다시 복원할 수 있는 통합 토크나이저를 개발하여 시각 정보의 의미론적 완전성을 확보했다.
LongCat-Next 모델 구현
68.5B 파라미터 규모의 MoE 백본을 기반으로 2조 개 이상의 토큰을 학습하여 시각 이해, 이미지 생성, 음성 대화 분야에서 산업용 수준의 강력한 성능을 달성했다.
이해와 생성의 모델링 충돌 해결
이산 시각 모델링의 고질적 문제였던 이해 성능 저하를 극복하고, 동일한 예측 프로세스 내에서 이해와 생성이라는 상충하는 목표를 효과적으로 조화시켰다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 이미지를 연속적인 수치 벡터(Embedding)로 입력받아 텍스트 토큰과 결합한다. 하지만 텍스트는 딱딱 끊어지는 이산적(Discrete) 데이터인 반면 이미지는 연속적이어서, 모델 내부에서 두 정보가 깊게 융합되지 못하고 겉도는 현상이 발생한다. 이는 마치 외국어 문장 사이에 그림을 끼워 넣는 것과 같아 진정한 의미의 통합 학습에 한계가 있었다.
LongCat-Next는 이미지를 '시각적 단어'로 바꾼다. dNaViT라는 특수 토크나이저를 통해 복잡한 픽셀 정보를 텍스트 단어처럼 고유한 ID 시퀀스로 변환한다. 이때 RVQ(Residual Vector Quantization) 기술을 사용하여 이미지의 큰 윤곽부터 세밀한 질감까지 단계적으로 숫자로 바꾼다. 이렇게 하면 이미지는 모델 입장에서 텍스트와 다를 바 없는 '또 다른 언어'가 된다.
결과적으로 모델은 다음 단어를 예측(Next-Token Prediction)하는 단일 원리만으로 글을 쓰듯 그림을 그리고, 그림을 보듯 글을 이해하게 된다. 별도의 연결 장치 없이 모델의 신경망 자체가 시각과 청각 정보를 텍스트와 동일한 위상에서 내면화함으로써, 모달리티 간의 진정한 '네이티브' 통합을 가능하게 했다.
방법론
DiNA 프레임워크는 모든 입력을 이산 토큰 시퀀스로 변환하여 단일 Autoregressive 목적 함수로 학습한다. [이미지/오디오/텍스트 입력 → 각 전용 토크나이저 → 이산 ID 시퀀스 → 공유 임베딩 공간] 순으로 처리되어 모달리티 간 경계가 사라진다.
dNaViT는 SAE(Semantic-and-Aligned Encoder)와 RVQ를 결합한다. SAE가 이미지에서 의미론적 특징을 추출하면, RVQ는 이를 L개의 계층적 코드북으로 양자화한다. [SAE 특징 벡터 z → L단계 재귀적 양자화 → L개의 정수 ID 세트] 과정을 거쳐 해상도에 상관없이 최대 28배의 압축률을 달성하면서도 정보 손실을 최소화한다.
오디오 처리는 Whisper 인코더와 RVQ를 활용한다. 12.5Hz 속도로 파형을 이산 토큰화하며, Flow Matching 기반의 디토크나이저를 통해 고충실도 음성을 복원한다. 텍스트와 오디오 토큰을 확률적 지연(Stochastic Delay) 방식으로 정렬하여 병렬 및 직렬 음성 생성을 모두 지원하는 통합 학습 패러다임을 적용했다.
모델 백본은 LongCat-Flash-Lite A3B(68.5B MoE)를 사용한다. Modality-Agnostic MoE 설계를 통해 특정 모달리티에 종속되지 않고 전문가(Expert)가 데이터의 특성에 따라 동적으로 용량을 할당하도록 유도하여 학습 효율을 높였다.
주요 결과
시각 이해 벤치마크에서 MathVista 83.1점, MathVision 64.7점을 기록하며 Qwen3-VL-A3B 등 전문 모델을 능가했다. MMMU-Pro에서도 60.3점으로 강력한 논리 추론 능력을 입증하며 이산 모델링의 성능 한계를 돌파했다.
이미지 생성 분야에서는 GenEval 84.44점, LongText-EN 93.15점을 달성했다. 특히 정교한 텍스트 렌더링 능력이 요구되는 TIFF 벤치마크에서 82.85/84.38점을 기록하며 Flux-dev와 대등하거나 우수한 생성 품질을 보여주었다.
오디오 성능의 경우 LibriSpeech WER 1.63%(test-clean), SeedTTSzh 1.90점을 기록했다. 이는 Gemini 3.1 Flash-Lite 등 최신 Omni 모델들과 비교해도 경쟁력 있는 수준이며, 텍스트 가이드 기반의 음성 생성에서 높은 품질을 유지했다.
기술 상세
아키텍처의 핵심은 dNaViT를 통한 'Semantic Completeness' 확보이다. SAE의 잔차 연결(Residual Connection) 구조가 저수준 신호를 보존하는 특성을 활용하여, 별도의 재구성 감독 없이도 픽셀 수준의 복원이 가능한 잠재 경로를 유지하도록 설계되었다.
RVQ 기반의 계층적 토큰화는 지수적인 표현 공간을 제공한다. L개 레벨의 토큰을 합산(Additive Accumulation)하여 임베딩을 구성함으로써 단일 NTP 단계 내에서 계산 효율성을 유지하면서도 정보 밀도를 극대화했다.
학습은 Pre-align, Mid-training, SFT의 3단계로 진행된다. 특히 Mid-training 단계에서는 클러스터 기반 재균형(Cluster-based Rebalancing) 기법을 도입하여 데이터 분포의 불균형을 해결하고 시각적 개념의 다양성을 확보했다.
인프라 측면에서는 VHalf 기반 파이프라인 병렬 처리를 도입했다. 임베딩 레이어와 모달리티 손실 모듈을 동일 스테이지에 배치하고 LLM 헤드를 분리하여, 모달리티별 연산량 차이로 인한 파이프라인 버블(Bubble) 현상을 최소화하고 학습 효율을 최적화했다.
한계점
현재 버전의 디토크나이저는 픽셀 수준의 완벽한 충실도보다는 의미론적 일관성에 더 집중하고 있다. 또한 데이터 스케일링에 따른 성능 향상은 확인되었으나, 연속적 표현과 이산적 모델링 사이의 잠재적 미스매치에 대한 추가 연구가 필요하다.
실무 활용
단일 모델로 이미지 이해, 생성, 음성 대화가 모두 가능하여 복합적인 멀티모달 서비스 구축에 매우 유리하다. 특히 텍스트 렌더링 능력이 뛰어나 광고 디자인이나 복잡한 문서 분석 에이전트에 즉시 활용 가능하다.
- 정교한 텍스트가 포함된 광고 포스터 및 인포그래픽 자동 생성
- 복잡한 수식과 도표가 포함된 수학/과학 문제 풀이 및 교육용 에이전트
- 저지연 실시간 음성 대화 인터페이스 및 개인화된 목소리 복제 서비스
- 고해상도 문서 이미지로부터 구조화된 데이터 추출 및 분석
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.