헥터 리우: 오픈 파운데이션 모델의 한계 돌파 | AI Trends

헥터 리우: 오픈 파운데이션 모델의 한계 돌파

IFM의 헥터 리우가 데이터 큐레이션 프레임워크 WORCS와 새로운 오픈소스 모델 K2-V2를 통해 오픈 파운데이션 모델의 성능을 극대화하는 전략을 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

고품질 데이터 큐레이션(Txt360)과 검증 가능한 보상 기반 강화학습(RLVR)을 통해 오픈소스 모델도 폐쇄형 모델 수준의 성능을 달성할 수 있습니다.

배경

MBZUAI 산하 IFM(Institute of Foundation Models)에서 진행한 오픈소스 LLM 개발 성과 발표입니다.

대상 독자

LLM 연구자, 데이터 엔지니어, 오픈소스 AI 커뮤니티 기여자

의미 / 영향

오픈소스 진영이 데이터 큐레이션과 학습 로그를 완전히 공개하면서도 성능 면에서 폐쇄형 모델과 경쟁할 수 있는 기반을 마련했다. 특히 70B 규모에서 512k 컨텍스트를 지원하는 K2-V2는 긴 문서 처리와 복잡한 추론이 필요한 실무 환경에 즉시 도입 가능하다는 점에서 큰 의미가 있다. 이러한 투명한 개발 방식은 연구 커뮤니티의 신뢰를 높이고 기술 발전을 가속화할 것이다.

챕터별 상세

00:00

IFM 소개 및 오픈소스 모델의 여정

IFM(Institute of Foundation Models)은 MBZUAI 산하 연구소로 실리콘밸리에 위치하며 오픈소스 파운데이션 모델 개발에 집중해왔다. 2년 전 LM360 프로젝트를 시작으로 데이터, 학습 로그, 체크포인트를 모두 공개하는 완전한 오픈소스 생태계를 지향한다. 이번 발표는 오픈소스 모델이 폐쇄형 모델의 성능을 따라잡기 위해 각 단계에서 어떤 한계를 돌파했는지 다룬다.

01:10

WORCS: 데이터 큐레이션 프레임워크

데이터 파이프라인의 핵심 단계를 정의하는 WORCS 프레임워크를 제안했다. 이는 Weighting(가중치), Organization(조직화), Rewrite(재작성), Create(생성), Sources(소스)의 약자로 구성된다. 모든 데이터 처리는 네이티브 자연어 소스에서 시작하며 이를 어떻게 가공하고 조직화하느냐가 모델 성능의 핵심이다.

02:10

Txt360: 고품질 웹 데이터 소스 구축

웹 소스, PDF, 논문 등 방대한 데이터를 큐레이션한 Txt360 데이터셋을 구축했다. 웹 소스 내의 다양한 하위 도메인을 식별하기 위해 클러스터링 기법을 적용했다. 이러한 클러스터링 결과는 향후 데이터 재작성이나 가중치 조절 단계에서 중요한 기초 자료로 활용된다.

03:00

합성 데이터 생성과 Midas 데이터셋

자연어 데이터의 한계를 극복하기 위해 GPT-4o를 활용한 합성 데이터 생성 프로젝트인 Midas를 진행했다. 수학, 코드, 질의응답 등 모델의 기초 추론 능력을 강화하는 데 초점을 맞췄다. 생성된 데이터는 기존 웹 데이터와 결합되어 모델의 지식 밀도를 높이는 역할을 수행했다.

06:20

데이터 가중치 조절 및 도메인 필터링

데이터 샘플의 중복 횟수를 기반으로 가중치를 재설정하는 기법을 도입했다. 단순히 모든 문서를 한 번만 사용하는 중복 제거 방식보다 자연스러운 중복 횟수를 반영한 가중치 부여가 성능 향상에 유리했다. 수학 도메인에서는 일반 웹 파서가 수식을 탈락시키는 문제를 해결하기 위해 전용 필터를 설계하여 데이터 품질을 보존했다.

08:48

데이터 조직화와 LongPack 기법

LongPack은 짧은 문서들 사이의 상호 참조(Anchor/URL)를 찾아 연결함으로써 긴 컨텍스트 데이터를 구축하는 기법이다. 문서 A에서 문서 B를 참조하는 구조를 활용해 인위적이지 않은 긴 의존성을 생성했다. 이 방식은 일반적인 Perplexity 지표를 훼손하지 않으면서도 모델의 장기 기억 능력을 비약적으로 강화했다.

10:40

스케일링 법칙과 하이퍼파라미터 최적화

학습 과정에서의 스케일링 커브를 부드럽고 예측 가능하게 만들기 위해 하이퍼파라미터를 최적화했다. 특히 Weight Decay 설정을 조정하여 학습 중 발생하는 손실 스파이크를 효과적으로 제거했다. 이를 통해 작은 모델에서의 실험 결과가 큰 모델에서도 일관되게 나타나도록 보장했다.

12:20

포스트 트레이닝과 Guru 데이터셋

수학과 코드를 넘어 다양한 도메인에서 강화학습(RLVR)을 수행할 수 있도록 Guru 데이터셋을 설계했다. 이는 3개 이상의 도메인을 포함하는 최초의 공개 RLVR 데이터셋이다. 모델이 특정 도메인에 과적합되지 않고 범용적인 추론 능력을 갖추도록 돕는 것이 핵심 목적이다.

13:08

Reasoning360과 K2-Think

Reasoning360은 맞춤형 알고리즘과 학습 레시피를 통합한 GitHub 저장소로 K2-Think 모델 학습의 기반이 되었다. Cerebras 하드웨어를 활용해 추론 속도를 극대화했으며 초당 약 2,000 토큰의 처리 속도를 달성했다. 이는 오픈소스 모델도 최적화된 인프라에서 폐쇄형 모델 못지않은 성능을 낼 수 있음을 보여준다.

16:00

K2-V2 모델 출시 및 성능 분석

70B 파라미터 규모의 K2-V2 모델을 공식 출시했다. 이 모델은 512k 컨텍스트 길이를 네이티브로 지원하며 AMIE 2025 벤치마크에서 80% 이상의 정확도를 기록했다. 데이터 오염을 철저히 검증했으며 동일 규모의 다른 오픈소스 모델들보다 뛰어난 성능을 입증했다.

실무 Takeaway

웹 데이터의 자연스러운 중복 횟수를 가중치로 활용하면 단순 중복 제거보다 모델의 일반화 성능이 향상된다.
문서 간 앵커 텍스트와 URL 참조를 활용해 데이터를 결합하면 Perplexity 저하 없이 긴 컨텍스트 학습 데이터를 구축할 수 있다.
수학과 코드 도메인에 국한되지 않은 다중 도메인 RLVR 데이터셋(Guru)이 모델의 범용 추론 능력을 강화하는 핵심 요소이다.

언급된 리소스

DemoTxt360 Dataset

DemoK2-V2 Model

GitHubReasoning360 GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 13.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.