Qwen 3.5 2B 모델의 압도적 성능과 M1 Mac 환경에서의 파인튜닝 메모리 문제

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Qwen 3.5 2B 모델이 벤치마크에서 뛰어난 효율성을 보였으나, M1 Mac 8GB 환경에서 QLoRA 학습 시 지속적인 OOM 오류가 발생하고 있다.

배경

Qwen 3.5 시리즈의 벤치마크 결과에 고무된 사용자가 M1 MacBook Pro(8GB RAM) 환경에서 0.8B 및 2B 모델을 mlx_lm 라이브러리로 파인튜닝하려 시도했으나 지속적인 메모리 부족 문제를 겪어 해결책을 구하고 있다.

의미 / 영향

Qwen 3.5와 같은 초고효율 소형 모델이 등장함에 따라 로컬 환경에서의 파인튜닝 수요가 급증하고 있다. 그러나 모델의 성능 향상이 반드시 학습 효율성으로 이어지지는 않으며, 특정 하드웨어 가속 프레임워크와의 최적화 문제가 새로운 병목 현상으로 작용하고 있음이 확인됐다.

커뮤니티 반응

사용자는 자신의 설정 문제인지 혹은 다른 사용자들도 mlx_lm이나 다른 라이브러리에서 유사한 문제를 겪고 있는지 확인하고자 하며, Qwen 3.5의 높은 성능 대비 학습 난이도에 주목하고 있다.

실용적 조언

8GB RAM Mac 사용자라면 Qwen 3.5 파인튜닝 시도 전 mlx_lm의 최신 이슈 리포트를 확인하고 Rank 값을 최소화할 것
동일 환경에서 Mistral 계열 모델은 학습이 가능하므로 하드웨어 한계보다는 소프트웨어 스택의 최적화 상태를 먼저 점검할 것

언급된 도구

mlx_lm중립

macOS용 LLM 추론 및 학습 라이브러리

섹션별 상세

Qwen 3.5 2B 모델의 벤치마크 성능이 체급 대비 매우 이례적이다. MMLU-Pro 스코어 66.5를 기록하며 Llama 3.1 70B, Mistral Small 3(24B), Qwen2 72B 등 훨씬 거대한 모델들을 능가하는 성능을 입증했다.

M1 MacBook Pro(8GB RAM) 환경에서 QLoRA 4비트 양자화를 적용해 파인튜닝을 시도했다. 시퀀스 길이를 128까지 낮추고 배치 사이즈를 1로 설정했음에도 불구하고 2B 모델은 물론 0.8B 모델조차 실행 즉시 OOM 오류가 발생했다.

사용자는 기존에 Mistral 7B나 Ministral 3 3B 모델을 동일 기기에서 낮은 설정으로 학습시킨 경험이 있다. 따라서 Qwen 3.5 모델에서만 발생하는 이 문제가 라이브러리(mlx_lm)의 특정 버그인지 혹은 모델 아키텍처의 특성 때문인지에 대한 의문이 제기됐다.

소프트웨어 재설치, 라이브러리 업데이트, 데이터셋 변경 등 가능한 모든 환경 조정을 시도했으나 결과는 동일했다. 이는 Qwen 3.5 모델이 학습 시 점유하는 활성화(Activation) 메모리나 KV 캐시 구조가 기존 모델들과 다를 가능성을 시사한다.

실무 Takeaway

Qwen 3.5 2B 모델은 MMLU-Pro 66.5점으로 소형 모델 중 최상위권의 효율성을 보여준다.
8GB RAM 환경의 M1 Mac에서 mlx_lm을 이용한 Qwen 3.5 파인튜닝은 현재 심각한 OOM 문제로 인해 정상적인 진행이 불가능하다.
0.8B 모델조차 시퀀스 길이 128 설정에서 학습이 실패하는 현상은 일반적인 메모리 부족 이상의 기술적 호환성 이슈일 가능성이 높다.