핵심 요약
생성 작업에 특화된 Causal LLM을 BERT와 같은 양방향 인코더로 효과적으로 변환하는 오픈소스 프레임워크를 제시한다. 기존 인코더 모델들이 활용하지 못했던 방대한 생성형 모델 생태계의 지식을 활용하여 텍스트뿐만 아니라 이미지와 오디오를 아우르는 통합 표현 학습이 가능해진다.
왜 중요한가
생성 작업에 특화된 Causal LLM을 BERT와 같은 양방향 인코더로 효과적으로 변환하는 오픈소스 프레임워크를 제시한다. 기존 인코더 모델들이 활용하지 못했던 방대한 생성형 모델 생태계의 지식을 활용하여 텍스트뿐만 아니라 이미지와 오디오를 아우르는 통합 표현 학습이 가능해진다.
핵심 기여
양방향 적응을 위한 핵심 요인 규명
Gemma3 및 Qwen3 모델군에 대한 체계적인 절제 연구를 통해, 양방향 어텐션을 활성화하는 마스킹 목적 함수(MNTP)가 작업별 성능 향상에 필수적임을 입증했다.
데이터 제약 하에서의 스케일링 전략
원본 사전 학습 데이터 없이도 성능을 유지하기 위해 선형 가중치 병합(Linear Weight Merging)과 경량 멀티 도메인 데이터 혼합 전략을 결합하여 파괴적 망각 현상을 억제했다.
BidirLM 모델 시리즈 및 Omni-Contrastive 데이터셋 공개
텍스트, 시각, 오디오를 통합한 180만 쌍의 Omni-Contrastive 데이터셋을 구축하고, 이를 통해 학습된 BidirLM-Omni-2.5B 등 5종의 고성능 인코더 모델을 공개했다.
핵심 아이디어 이해하기
기존의 Causal LLM은 이전 토큰들만을 참조하여 다음 토큰을 예측하는 Causal Attention 구조를 가진다. 이는 문장 생성에는 유리하지만, 문장 전체의 맥락을 동시에 고려해야 하는 임베딩이나 분류 작업에서는 BERT와 같이 양방향을 모두 참조하는 Bidirectional Attention 구조보다 효율성이 떨어진다. 본 논문은 이미 방대한 지식을 학습한 Causal LLM의 내부 가중치를 유지하면서 어텐션 마스크를 수정해 양방향성을 주입하는 방식에서 출발한다.
단순히 어텐션 구조만 바꾸는 것으로는 부족하며, 모델이 양방향 맥락에서 정보를 추출하는 법을 다시 익혀야 한다. 이를 위해 Masked Next-Token Prediction(MNTP)이라는 목적 함수를 도입한다. 이는 문장 중간의 토큰을 가리고(Masking), 앞뒤 맥락을 모두 활용해 해당 토큰을 예측하게 함으로써 모델이 양방향 정보를 통합하도록 유도하는 원리이다.
결과적으로 생성 모델이 가진 풍부한 도메인 지식(코드, 수학, 멀티모달 등)을 인코더 구조로 전이시킬 수 있게 된다. 특히 서로 다른 전문 지식을 가진 모델들의 가중치를 선형적으로 평균 내는 Weight Merging 기법을 적용하여, 추가적인 대규모 재학습 없이도 여러 모달리티의 능력을 하나의 인코더 안에 통합하는 성과를 거두었다.
방법론
전체 접근 방식은 Causal LLM을 기반으로 양방향 어텐션을 활성화한 후, MNTP와 대조 학습(Contrastive Learning)을 순차적으로 적용하는 2단계 파이프라인으로 구성된다. MNTP 단계에서는 입력 시퀀스의 일부를 [MASK] 토큰으로 치환하고 모델이 이를 복구하도록 학습시켜 양방향 표현력을 확보한다.
가중치 병합(Weight Merging) 메커니즘은 서로 다른 체크포인트나 특화 모델의 가중치를 W_merged = (1-α)W_base + αW_adapted 식에 따라 결합한다. [두 모델의 가중치 행렬을 입력으로] → [설정된 비율 α에 따라 가중합 연산을 수행하여] → [새로운 가중치 행렬을 생성하고] → [이는 두 모델의 능력을 보존하면서 파괴적 망각을 방지하는 효과를 가진다].
멀티모달 통합을 위해 BidirLM-Omni-2.5B는 텍스트, 시각(Qwen3-VL), 오디오(Qwen3-ASR) 특화 모델의 텍스트 백본 가중치를 동일 비율(1/3씩)로 병합한다. 이후 각 모달리티 전용 헤드를 부착하고 180만 개의 데이터 쌍으로 구성된 Omni-Contrastive 코퍼스를 통해 정렬 학습을 진행하여 통합된 벡터 공간을 구축한다.
주요 결과
BidirLM 시리즈는 텍스트 벤치마크인 MTEB와 XTREME에서 기존 오픈소스 인코더들을 압도하는 성능을 보였다. 특히 BidirLM-270M은 10% 더 적은 파라미터로도 mmBERT-base와 대등한 성능을 기록했으며, BidirLM-0.6B는 EuroBERT-610m보다 1점 이상 높은 점수를 획득했다.
멀티모달 성능 측면에서 BidirLM-Omni-2.5B는 이미지 임베딩 벤치마크인 MIEB에서 1위를 차지했으며, 오디오 벤치마크인 MAEB에서는 3위를 기록했다. 이는 자신보다 몇 배 더 큰 Nemotron-Omni-3B(4.8B)와 같은 모델들을 텍스트(+17) 및 이미지(+5) 벤치마크에서 앞지른 결과이다.
Ablation Study 결과, MNTP 단계를 생략하고 대조 학습만 진행할 경우 미세 조정(Fine-tuning) 성능이 급격히 저하됨이 확인되었다. 또한 가중치 병합 시 50% 비율을 적용했을 때 양방향 능력과 기본 지식의 균형이 가장 잘 유지되어 성능이 극대화되는 것으로 나타났다.
기술 상세
BidirLM 아키텍처는 Gemma3와 Qwen3의 Decoder-only Transformer 구조를 그대로 계승하되, 인과적 마스킹을 제거하여 모든 토큰이 서로를 참조할 수 있게 수정했다. 학습 과정에서는 10B 토큰 규모의 MNTP 학습과 10M 샘플 규모의 InfoNCE 대조 학습을 순차적으로 수행한다.
파괴적 망각(Catastrophic Forgetting)을 해결하기 위해 도입된 'Multilingual+Merge' 전략은 30B 토큰 학습 후의 체크포인트를 원본 베이스 모델과 0.5 비율로 선형 병합하는 방식이다. 이는 모델이 새로운 양방향 패턴을 익히면서도 사전 학습 단계에서 얻은 분포 지식을 잃지 않도록 돕는다.
멀티모달 정렬 시에는 각 모달리티 특화 모델들이 동일한 텍스트 백본을 공유한다는 점을 활용한다. 백본 가중치를 병합한 후 동결된(Frozen) 시각/오디오 헤드를 부착함으로써, 추가적인 대규모 학습 없이도 모달리티 간의 지식 전이가 가능함을 수학적 유사도 분석(Cosine Similarity)을 통해 증명했다.
한계점
본 연구는 주로 마스킹 단계의 절제 연구에 집중했으며, 대조 학습 단계에서의 데이터 구성이나 하드 네거티브 마이닝 전략에 대한 상세한 스케일링 분석은 향후 과제로 남겨두었다. 또한 Transformer 이외의 아키텍처(예: SSM, State-space models)에 대한 적용 가능성은 검증되지 않았다.
실무 활용
생성형 모델의 지식을 인코더로 전이하려는 개발자나 멀티모달 검색 시스템을 구축하려는 엔지니어에게 매우 유용한 프레임워크이다. 특히 원본 학습 데이터 없이도 모델의 성능을 개선할 수 있는 가중치 병합 기법을 상세히 다루고 있다.
- Causal LLM(Gemma, Qwen 등)을 활용한 고성능 텍스트 임베딩 모델 구축
- 텍스트, 이미지, 오디오를 동시에 처리하는 멀티모달 검색 및 추천 시스템 구현
- 특정 도메인(코드, 수학, 안전성)에 특화된 양방향 인코더로의 신속한 모델 적응
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.