이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
고품질 데이터 큐레이션(Txt360)과 검증 가능한 보상 기반 강화학습(RLVR)을 통해 오픈소스 모델도 폐쇄형 모델 수준의 성능을 달성할 수 있습니다.
배경
MBZUAI 산하 IFM(Institute of Foundation Models)에서 진행한 오픈소스 LLM 개발 성과 발표입니다.
대상 독자
LLM 연구자, 데이터 엔지니어, 오픈소스 AI 커뮤니티 기여자
의미 / 영향
오픈소스 진영이 데이터 큐레이션과 학습 로그를 완전히 공개하면서도 성능 면에서 폐쇄형 모델과 경쟁할 수 있는 기반을 마련했다. 특히 70B 규모에서 512k 컨텍스트를 지원하는 K2-V2는 긴 문서 처리와 복잡한 추론이 필요한 실무 환경에 즉시 도입 가능하다는 점에서 큰 의미가 있다. 이러한 투명한 개발 방식은 연구 커뮤니티의 신뢰를 높이고 기술 발전을 가속화할 것이다.
챕터별 상세
00:00
IFM 소개 및 오픈소스 모델의 여정
IFM(Institute of Foundation Models)은 MBZUAI 산하 연구소로 실리콘밸리에 위치하며 오픈소스 파운데이션 모델 개발에 집중해왔다. 2년 전 LM360 프로젝트를 시작으로 데이터, 학습 로그, 체크포인트를 모두 공개하는 완전한 오픈소스 생태계를 지향한다. 이번 발표는 오픈소스 모델이 폐쇄형 모델의 성능을 따라잡기 위해 각 단계에서 어떤 한계를 돌파했는지 다룬다.
- •MBZUAI 산하 실리콘밸리 연구소 IFM의 역할 소개
- •2년 전 시작된 LM360 프로젝트의 역사와 철학
- •데이터와 학습 과정의 완전 공개를 통한 신뢰성 확보
01:10
WORCS: 데이터 큐레이션 프레임워크
데이터 파이프라인의 핵심 단계를 정의하는 WORCS 프레임워크를 제안했다. 이는 Weighting(가중치), Organization(조직화), Rewrite(재작성), Create(생성), Sources(소스)의 약자로 구성된다. 모든 데이터 처리는 네이티브 자연어 소스에서 시작하며 이를 어떻게 가공하고 조직화하느냐가 모델 성능의 핵심이다.
- •데이터 파이프라인 최적화를 위한 WORCS 프레임워크 정의
- •네이티브 소스 기반의 데이터 처리 중요성 강조
- •가중치 조절과 조직화를 통한 성능 향상 메커니즘
02:10
Txt360: 고품질 웹 데이터 소스 구축
웹 소스, PDF, 논문 등 방대한 데이터를 큐레이션한 Txt360 데이터셋을 구축했다. 웹 소스 내의 다양한 하위 도메인을 식별하기 위해 클러스터링 기법을 적용했다. 이러한 클러스터링 결과는 향후 데이터 재작성이나 가중치 조절 단계에서 중요한 기초 자료로 활용된다.
- •다양한 웹 소스를 통합한 Txt360 데이터셋 구축
- •하위 도메인 식별을 위한 클러스터링 기법 적용
- •데이터 분포 관리를 통한 학습 효율성 증대
03:00
합성 데이터 생성과 Midas 데이터셋
자연어 데이터의 한계를 극복하기 위해 GPT-4o를 활용한 합성 데이터 생성 프로젝트인 Midas를 진행했다. 수학, 코드, 질의응답 등 모델의 기초 추론 능력을 강화하는 데 초점을 맞췄다. 생성된 데이터는 기존 웹 데이터와 결합되어 모델의 지식 밀도를 높이는 역할을 수행했다.
- •GPT-4o를 활용한 고품질 합성 데이터 생성
- •수학 및 코드 도메인 특화 데이터셋 Midas 구축
- •자연어 데이터와 합성 데이터의 전략적 결합
06:20
데이터 가중치 조절 및 도메인 필터링
데이터 샘플의 중복 횟수를 기반으로 가중치를 재설정하는 기법을 도입했다. 단순히 모든 문서를 한 번만 사용하는 중복 제거 방식보다 자연스러운 중복 횟수를 반영한 가중치 부여가 성능 향상에 유리했다. 수학 도메인에서는 일반 웹 파서가 수식을 탈락시키는 문제를 해결하기 위해 전용 필터를 설계하여 데이터 품질을 보존했다.
- •중복 횟수 기반의 데이터 가중치 재설정 기법 적용
- •수학 도메인 특화 데이터 필터링 및 보존 전략
- •도메인별 최적의 데이터 믹스 구성을 통한 성능 최적화
08:48
데이터 조직화와 LongPack 기법
LongPack은 짧은 문서들 사이의 상호 참조(Anchor/URL)를 찾아 연결함으로써 긴 컨텍스트 데이터를 구축하는 기법이다. 문서 A에서 문서 B를 참조하는 구조를 활용해 인위적이지 않은 긴 의존성을 생성했다. 이 방식은 일반적인 Perplexity 지표를 훼손하지 않으면서도 모델의 장기 기억 능력을 비약적으로 강화했다.
- •문서 간 참조 구조를 활용한 LongPack 기법 개발
- •Perplexity 저하 없는 긴 컨텍스트 데이터 구축
- •512k 이상의 컨텍스트 길이를 지원하기 위한 데이터 조직화
10:40
스케일링 법칙과 하이퍼파라미터 최적화
학습 과정에서의 스케일링 커브를 부드럽고 예측 가능하게 만들기 위해 하이퍼파라미터를 최적화했다. 특히 Weight Decay 설정을 조정하여 학습 중 발생하는 손실 스파이크를 효과적으로 제거했다. 이를 통해 작은 모델에서의 실험 결과가 큰 모델에서도 일관되게 나타나도록 보장했다.
- •예측 가능한 스케일링 커브를 위한 하이퍼파라미터 튜닝
- •Weight Decay 조정을 통한 학습 안정성 확보
- •모델 크기 확장에 따른 성능 일관성 유지 전략
12:20
포스트 트레이닝과 Guru 데이터셋
수학과 코드를 넘어 다양한 도메인에서 강화학습(RLVR)을 수행할 수 있도록 Guru 데이터셋을 설계했다. 이는 3개 이상의 도메인을 포함하는 최초의 공개 RLVR 데이터셋이다. 모델이 특정 도메인에 과적합되지 않고 범용적인 추론 능력을 갖추도록 돕는 것이 핵심 목적이다.
- •다중 도메인 강화학습을 위한 Guru 데이터셋 구축
- •검증 가능한 보상 기반 강화학습(RLVR) 적용
- •범용 추론 능력 강화를 위한 포스트 트레이닝 전략
13:08
Reasoning360과 K2-Think
Reasoning360은 맞춤형 알고리즘과 학습 레시피를 통합한 GitHub 저장소로 K2-Think 모델 학습의 기반이 되었다. Cerebras 하드웨어를 활용해 추론 속도를 극대화했으며 초당 약 2,000 토큰의 처리 속도를 달성했다. 이는 오픈소스 모델도 최적화된 인프라에서 폐쇄형 모델 못지않은 성능을 낼 수 있음을 보여준다.
- •오픈소스 추론 인프라 Reasoning360 공개
- •Cerebras 가속기를 통한 초고속 추론 성능 구현
- •K2-Think 모델을 통한 복잡한 추론 작업 처리
16:00
K2-V2 모델 출시 및 성능 분석
70B 파라미터 규모의 K2-V2 모델을 공식 출시했다. 이 모델은 512k 컨텍스트 길이를 네이티브로 지원하며 AMIE 2025 벤치마크에서 80% 이상의 정확도를 기록했다. 데이터 오염을 철저히 검증했으며 동일 규모의 다른 오픈소스 모델들보다 뛰어난 성능을 입증했다.
- •70B 규모의 고성능 오픈소스 모델 K2-V2 출시
- •512k 컨텍스트 지원 및 AMIE 2025 80% 달성
- •데이터 오염 검증을 통한 벤치마크 신뢰성 확보
실무 Takeaway
- 웹 데이터의 자연스러운 중복 횟수를 가중치로 활용하면 단순 중복 제거보다 모델의 일반화 성능이 향상된다.
- 문서 간 앵커 텍스트와 URL 참조를 활용해 데이터를 결합하면 Perplexity 저하 없이 긴 컨텍스트 학습 데이터를 구축할 수 있다.
- 수학과 코드 도메인에 국한되지 않은 다중 도메인 RLVR 데이터셋(Guru)이 모델의 범용 추론 능력을 강화하는 핵심 요소이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 01. 13.수집 2026. 02. 21.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.