핵심 요약
기존 임베딩 모델들이 영어와 중국어에 치중되어 소외되었던 중저자원 언어들의 성능을 대폭 개선했습니다. 80M부터 14B까지 8가지 다양한 크기를 제공하며, Matryoshka Learning을 통해 하드웨어 제약에 따라 성능과 비용을 유연하게 선택할 수 있어 실무 활용도가 매우 높습니다.
왜 중요한가
기존 임베딩 모델들이 영어와 중국어에 치중되어 소외되었던 중저자원 언어들의 성능을 대폭 개선했습니다. 80M부터 14B까지 8가지 다양한 크기를 제공하며, Matryoshka Learning을 통해 하드웨어 제약에 따라 성능과 비용을 유연하게 선택할 수 있어 실무 활용도가 매우 높습니다.
핵심 기여
282개 언어를 아우르는 방대한 다국어 학습 데이터 구축
157개의 공개 소스에서 수집한 6,000만 개의 고품질 샘플을 활용하여 282개 자연어와 40개 이상의 프로그래밍 언어를 지원하는 데이터셋을 구성했다.
Matryoshka Representation Learning(MRL) 통합
임베딩 차원을 8부터 최대 크기까지 자유롭게 조절할 수 있는 MRL 기술을 적용하여 하드웨어 제약 조건에 따라 성능과 비용을 동적으로 최적화할 수 있는 유연성을 확보했다.
모델 프루닝 및 지식 증류를 통한 효율적인 소형 모델군 생성
0.6B 모델을 기반으로 활성화 노름(activation norm) 기준 프루닝과 지식 증류를 결합하여 성능 저하를 최소화하면서도 매우 가벼운 80M~330M 모델군을 구축했다.
11개 MTEB 벤치마크 리더보드 1위 달성
F2LLM-v2-14B 모델은 다국어, 영어, 코드 등 주요 MTEB 벤치마크에서 기존 SOTA 모델들을 제치고 최고 성능을 기록했다.
핵심 아이디어 이해하기
텍스트 임베딩은 문장을 고차원 벡터 공간의 점으로 변환하여 의미적 유사도를 계산하는 기술이다. 기존 모델들은 주로 영어 데이터에 편향되어 있어 한국어나 동남아시아 언어 등 자원이 부족한 언어에서는 의미적 관계를 정확히 포착하지 못하는 한계가 있었다. F2LLM-v2는 Qwen3와 같은 강력한 디코더 기반 LLM을 기초로 삼아 방대한 다국어 데이터를 학습하여 이 문제를 해결한다.
특히 Matryoshka Representation Learning을 도입하여, 벡터의 앞부분에 핵심 정보를 집중시키고 뒷부분으로 갈수록 세부 정보를 담게 설계했다. 이는 마치 인형 안에 인형이 들어있는 마트료시카처럼, 하나의 모델로 다양한 차원의 임베딩을 생성할 수 있게 한다. 또한 대형 모델의 지식을 소형 모델로 전수하는 지식 증류와 불필요한 파라미터를 제거하는 프루닝 기법을 사용하여, 모바일 기기에서도 동작 가능한 수준의 효율성을 확보하면서도 SOTA급 성능을 유지하는 데 성공했다.
방법론
2단계 학습 파이프라인을 채택했다. 1단계에서는 2,700만 개의 대규모 검색 데이터셋을 사용하여 기본적인 의미론적 토대를 구축하고, 2단계에서는 1,800만 개의 정교한 하위 태스크 데이터를 통해 분류, 재순위화(reranking) 등 구체적인 응용 능력을 강화했다.
Matryoshka Representation Learning(MRL)을 적용했다. [각 차원별 임베딩 벡터를 입력으로] -> [차원별로 유사도 손실을 각각 계산하여 합산하는 연산을 수행해] -> [모든 차원에서 의미가 보존된 가중치를 얻고] -> [이 값은 벡터의 일부분만 사용해도 전체의 의미를 대변할 수 있음을 의미한다.]
모델 프루닝 과정에서는 활성화 노름(activation norm)을 기준으로 가중치 행렬의 행과 열을 제거했다. 프루닝 직후 발생하는 성능 저하를 막기 위해 [학생 모델과 교사 모델의 임베딩 벡터를 입력으로] -> [두 벡터 사이의 거리 제곱 평균(MSE)을 계산해] -> [오차 값을 얻고] -> [이 숫자가 작아질수록 학생 모델이 대형 모델의 표현력을 더 정확히 모방하게 된다.]
주요 결과
F2LLM-v2-14B 모델은 MTEB의 Multilingual, English, Code 등 총 11개 벤치마크에서 1위를 기록했다. 특히 폴란드어(Polish) 벤치마크에서는 기존 SOTA를 크게 상회하는 결과를 보였다. Ablation Study 결과, 지식 증류를 적용했을 때 80M 모델의 평균 성능이 53.37에서 58.04로 약 4.67포인트 상승하여 소형 모델 최적화의 효과를 입증했다. MRL 평가 결과, 330M 모델의 전체 차원(896) 임베딩 성능이 14B 모델을 32차원으로 축소했을 때와 대등한 수준을 보여주어 차원 축소의 효율성을 확인했다.
실무 활용
다양한 크기의 모델과 가변 차원 임베딩을 지원하여 엔터프라이즈급 검색 시스템부터 모바일 온디바이스 AI까지 폭넓게 활용 가능합니다.
- 200개 이상의 언어를 지원하는 글로벌 시맨틱 검색 서비스
- 리소스가 제한된 모바일 기기 내 로컬 텍스트 분류 및 클러스터링
- Matryoshka Learning을 활용한 다단계(Coarse-to-fine) 검색 시스템 구축
- 40개 이상의 프로그래밍 언어를 지원하는 코드 검색 및 추천 도구
기술 상세
아키텍처는 Qwen3 기반의 디코더 전용(Decoder-only) Transformer 구조를 사용하며, 시퀀스의 마지막 EOS 토큰의 hidden state를 문장 표현값으로 활용한다. 학습 데이터는 retrieval, clustering, two-way classification의 세 가지 표준 포맷으로 통합하여 대조 학습(Contrastive Learning) 목적 함수를 통해 최적화된다. Retrieval 포맷의 경우 In-batch negative와 하드 네거티브 마이닝을 병행한다.
프루닝은 Hidden size, MLP intermediate size, Layer 수의 세 가지 차원에서 수행된다. 특히 레이어 프루닝 시에는 단순히 앞부분의 n개 레이어만 남기는 방식이 가장 효과적임을 실험적으로 확인했다. 지식 증류 시에는 학생 모델과 교사 모델의 시퀀스 임베딩 간 MSE Loss를 사용하며, 이는 0.6B 및 1.7B 모델의 2단계 학습 과정에도 적용되어 성능 향상에 기여했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료