정교회 교부 문헌으로 학습된 Paterikon-3B 모델 및 데이터셋 공개

핵심 요약

Qwen2.5-3B 모델을 기반으로 1억 1,600만 토큰의 정교회 교부 문헌 데이터를 풀 파인튜닝하여 구축한 도메인 특화 모델과 데이터셋을 공개했다.

배경

정교회 기독교의 교부 문헌 지식을 LLM에 주입하기 위해 Qwen2.5-3B-Instruct 모델을 기반으로 지속적 사전 학습(CPT)을 수행했다. 123명의 교부들이 작성한 78만 개 이상의 구절을 포함하는 대규모 데이터셋을 구축하고 이를 오픈소스로 공유했다.

의미 / 영향

이 프로젝트는 특정 전문 도메인 지식을 소규모 모델에 주입하는 실질적인 방법론을 제시했다. 특히 고가의 기업용 GPU 없이도 1억 토큰 이상의 데이터를 전체 가중치 파인튜닝하여 성능 향상을 이끌어낼 수 있음을 증명했다.

커뮤니티 반응

작성자가 모델과 데이터셋을 공개하며 학습 설정, 코퍼스 수집 파이프라인, 풀 파인튜닝과 LoRA의 트레이드오프에 대한 질문을 환영하고 있어 기술적 교류가 활발히 일어날 것으로 보인다.

합의점 vs 논쟁점

합의점

도메인 특화 지식 주입을 위해 전체 가중치 파인튜닝이 효과적이다.
소비자용 GPU인 RTX 3090으로도 상당한 규모의 CPT 작업이 가능하다.

실용적 조언

도메인 특화 모델 구축 시 메모리 효율을 위해 Adafactor 옵티마이저 사용을 고려할 수 있다.
단순한 LoRA보다 전체 가중치 파인튜닝이 도메인 지식의 깊은 주입에 유리할 수 있다.

언급된 도구

Qwen2.5-3B-Instruct추천

지속적 사전 학습(CPT)을 위한 베이스 모델

RTX 3090추천

모델 학습을 위한 하드웨어 가속기

Adafactor추천

학습 메모리 효율화를 위한 옵티마이저

섹션별 상세

Qwen2.5-3B-Instruct 모델을 기반으로 1억 1,600만 토큰 규모의 정교회 교부 문헌 데이터를 지속적 사전 학습(CPT)했다. 데이터셋은 23개 역사적 시대에 걸친 123명의 교부들의 저작 786,000개 구절로 구성되었으며, 러시아어(98%)와 영어(2%)가 혼합되어 있다. Azbyka.ru, OCA.org 등 공공 도메인 컬렉션에서 데이터를 수집하여 풍부한 메타데이터를 포함한 67,000행의 코퍼스를 구축했다.

단일 RTX 3090 GPU를 사용하여 약 22시간 동안 학습을 진행했으며, Adafactor 옵티마이저를 활용했다. 학습 손실(Train Loss)은 0.459를 기록했고, 토큰 정확도는 기존 Qwen 베이스 모델의 55-58%에서 약 65.8%로 크게 향상되었다. 이는 소비자용 하드웨어에서도 특정 도메인에 대한 심화 학습이 충분히 가능함을 보여주는 수치이다.

LoRA와 같은 효율적 파인튜닝 대신 전체 가중치 파인튜닝(Full-weight Fine-tune) 방식을 선택하여 도메인 지식을 깊게 주입했다. 현재 공개된 버전은 CPT 체크포인트 단계로, 아직 지시어 튜닝(Instruction-tuned)이 완료되지 않은 상태이다. 향후 능동 학습 루프 SFT와 98,000개의 질의응답 쌍을 활용한 전체 SFT를 진행하여 모델의 완성도를 높일 계획이다.

실무 Takeaway

정교회 교부 문헌이라는 특정 종교 도메인에 특화된 3B 규모의 경량 언어 모델을 성공적으로 구축했다.
단일 RTX 3090 GPU로 1억 토큰 이상의 데이터에 대한 전체 가중치 파인튜닝을 22시간 만에 완료했다.
도메인 특화 학습을 통해 베이스 모델 대비 토큰 예측 정확도를 약 10%p 가량 향상시키는 성과를 거뒀다.
학습에 사용된 116M 토큰 규모의 정교회 교부 문헌 코퍼스를 허깅페이스에 공개하여 커뮤니티 기여를 실천했다.

언급된 리소스

DemoPaterikon-3B Model

GitHubOrthodox Patristic Corpus

핵심 요약

Qwen2.5-3B 모델을 기반으로 1억 1,600만 토큰의 정교회 교부 문헌 데이터를 풀 파인튜닝하여 구축한 도메인 특화 모델과 데이터셋을 공개했다.

배경

의미 / 영향

커뮤니티 반응

합의점 vs 논쟁점

합의점

도메인 특화 지식 주입을 위해 전체 가중치 파인튜닝이 효과적이다.
소비자용 GPU인 RTX 3090으로도 상당한 규모의 CPT 작업이 가능하다.

실용적 조언

도메인 특화 모델 구축 시 메모리 효율을 위해 Adafactor 옵티마이저 사용을 고려할 수 있다.
단순한 LoRA보다 전체 가중치 파인튜닝이 도메인 지식의 깊은 주입에 유리할 수 있다.

언급된 도구

Qwen2.5-3B-Instruct추천

지속적 사전 학습(CPT)을 위한 베이스 모델

RTX 3090추천

모델 학습을 위한 하드웨어 가속기

Adafactor추천

학습 메모리 효율화를 위한 옵티마이저

섹션별 상세

실무 Takeaway

정교회 교부 문헌이라는 특정 종교 도메인에 특화된 3B 규모의 경량 언어 모델을 성공적으로 구축했다.
단일 RTX 3090 GPU로 1억 토큰 이상의 데이터에 대한 전체 가중치 파인튜닝을 22시간 만에 완료했다.
도메인 특화 학습을 통해 베이스 모델 대비 토큰 예측 정확도를 약 10%p 가량 향상시키는 성과를 거뒀다.
학습에 사용된 116M 토큰 규모의 정교회 교부 문헌 코퍼스를 허깅페이스에 공개하여 커뮤니티 기여를 실천했다.

언급된 리소스

DemoPaterikon-3B Model

GitHubOrthodox Patristic Corpus

정교회 교부 문헌으로 학습된 Paterikon-3B 모델 및 데이터셋 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

합의점 vs 논쟁점

합의점

실용적 조언

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

정교회 교부 문헌으로 학습된 Paterikon-3B 모델 및 데이터셋 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

합의점 vs 논쟁점

합의점

실용적 조언

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글