이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
HauhauCS가 Google의 Gemma 4를 기반으로 거절 반응을 제거하고 멀티모달 기능을 유지한 E4B(4B) 및 E2B(2B) GGUF 모델을 배포했다.
배경
HauhauCS라는 사용자가 Google의 Gemma 4 모델을 기반으로 거절 반응을 제거한 무검열 버전인 E4B(4B) 및 E2B(2B) 모델을 GGUF 형식으로 제작하여 공유했다.
의미 / 영향
이번 배포는 소형 모델에서도 강력한 무검열 멀티모달 성능을 구현할 수 있음을 입증했다. 특히 imatrix 기반의 K_P 양자화 기술을 통해 파일 크기 대비 높은 품질을 유지하는 방식이 로컬 LLM 커뮤니티의 표준적인 최적화 방향으로 자리 잡고 있음이 확인됐다.
커뮤니티 반응
작성자의 새로운 무검열 모델 릴리스에 대해 관심이 높으며, 특히 멀티모달 지원과 고품질 양자화 버전에 대한 긍정적인 기대가 형성되어 있다.
실용적 조언
- llama.cpp 사용 시 --jinja 플래그를 적용하여 템플릿 호환성을 확보할 것
- 최적의 결과를 위해 temp=1.0, top_p=0.95, top_k=64 샘플링 설정을 권장
- K_P 양자화 버전은 파일 크기 대비 품질이 우수하므로 우선적으로 고려할 것
언급된 도구
llama.cpp추천
추론 엔진
LM Studio추천
모델 실행 도구
Ollama중립
모델 실행 도구
섹션별 상세
"Aggressive" 변형을 통한 완전한 무검열 구현: 작성자는 Google의 원본 릴리스를 기반으로 성격 변화 없이 거절 반응만 제거한 모델을 구축했다. 465회의 거절 테스트에서 0건의 거절을 기록하며 성능 저하 없이 모든 요청에 응답하도록 설계됐다. 이는 모델의 원래 능력을 유지하면서도 안전 필터에 의한 제약을 완전히 해소했음을 의미한다.
네이티브 멀티모달 지원 및 mmproj 포함: E4B와 E2B 모델은 텍스트, 이미지, 비디오, 오디오를 하나의 모델에서 처리할 수 있는 네이티브 멀티모달 구조를 갖추고 있다. 시각 및 오디오 지원을 위해 필수적인 mmproj 파일이 함께 제공되어 llama.cpp 등에서 멀티모달 기능을 즉시 활용할 수 있다. 사용자는 별도의 추가 모델 없이도 다양한 미디어 데이터를 입력으로 사용할 수 있다.
imatrix 기반 K_P 양자화의 효율성: 모든 양자화 버전은 imatrix를 사용하여 생성되었으며, 특히 K_P 양자화는 모델별 분석을 통해 품질이 중요한 부분을 보존한다. 파일 크기는 일반 양자화 대비 5-15%만 증가하지만, 실제 품질은 1-2단계 높은 양자화 수준과 대등한 성능을 나타낸다. 이는 제한된 하드웨어 자원에서도 모델의 원래 성능을 최대한 끌어낼 수 있는 최적화 방식이다.
기술적 사양 및 추론 환경 호환성: E4B는 42개 레이어, E2B는 35개 레이어로 구성되어 있으며 131K의 네이티브 컨텍스트 윈도우를 지원한다. KV 공유 레이어를 통해 메모리 효율성을 높였으며 llama.cpp, LM Studio 등 GGUF 형식을 읽을 수 있는 도구들과 완벽히 호환된다. Google에서 권장하는 샘플링 파라미터(temp=1.0, top_p=0.95)와 --jinja 플래그 사용이 권장된다.
실무 Takeaway
- Gemma 4 기반의 E4B(4B) 및 E2B(2B) 모델은 465회 테스트 중 거절 0회를 기록하며 완전한 무검열 성능을 제공한다.
- 텍스트뿐만 아니라 이미지, 비디오, 오디오를 모두 처리할 수 있는 네이티브 멀티모달 기능을 갖추고 있으며 mmproj 파일이 포함되어 있다.
- imatrix 기반의 K_P 양자화 방식을 적용하여 기존 양자화 대비 파일 크기는 5-15%만 늘리면서 품질은 1-2단계 높였다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 04. 03.수집 2026. 04. 03.출처 타입 REDDIT
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.