LLM을 밑바닥부터 학습하고 Exasol에 배포하기까지의 여정

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM을 밑바닥부터 학습하는 것은 데이터와 컴퓨팅 자원 측면에서 비효율적이다. AI 보조 도구를 활용해 학습 파이프라인을 구축하고 GPT-2 모델을 파인튜닝하여 질문 응답 성능을 개선했다. 학습된 모델은 Exasol 데이터베이스 내 Python UDF로 배포되어 데이터 이동 없이 병렬 추론을 수행한다. 이 접근 방식은 데이터와 모델을 동일한 환경에 배치하여 분석 워크플로의 효율성을 극대화한다.

배경

Python, Hugging Face Transformers, SQL, Exasol 데이터베이스 환경

대상 독자

LLM을 프로덕션 환경에 배포하려는 데이터 엔지니어 및 AI 개발자

의미 / 영향

이 접근 방식은 데이터베이스와 AI 모델을 통합하여 데이터 이동 비용을 절감하고, 대규모 데이터셋에 대한 병렬 추론을 가능하게 한다. 특히 데이터가 이미 저장된 환경에서 LLM을 활용하려는 기업에게 효율적인 아키텍처를 제시한다.

섹션별 상세

AI 보조 도구(vibe coding)를 활용해 데이터 수집부터 배포까지 관리하는 제어 센터를 구축했다.

LLM 학습 애플리케이션의 학습 단계 UI. — Screenshot실시간 로그, 메트릭, GPU 사용량, 학습 진행 상황을 보여주는 대시보드를 통해 학습 파이프라인의 상태를 시각화한다.

밑바닥부터 학습을 시도했으나, 데이터 부족과 컴퓨팅 자원 제약으로 인해 의미 있는 언어 구조를 학습하는 데 실패했다.

GPT-2 모델을 파인튜닝하여 특정 질문 응답 작업에 최적화했고, 학습률 조절을 통해 기존 지식을 보존하며 성능을 개선했다.

질문 응답이 불가능한 사전 학습된 LLM의 결과 예시. — Screenshot파인튜닝 전 모델이 질문에 대해 부정확하거나 일관성 없는 답변을 생성하는 한계를 보여준다.

학습된 모델을 Exasol 데이터베이스 내 Python UDF로 통합하여 데이터 이동 없이 병렬 처리가 가능한 추론 환경을 구현했다.

python

CREATE OR REPLACE PYTHON3_TE SCALAR SCRIPT "EXASOL_DIB"."GPT2_INFERENCE" ("text" VARCHAR(10000) UTF8) RETURNS VARCHAR(10000) UTF8 AS from pathlib import Path from transformers import AutoTokenizer, AutoModelForCausalLM import torch, re MODEL_PATH = Path('/buckets/bfsailab/xxxxxx/ai-lab/models/xxxxxx/dirkllm_gpt2_question-answering') def run(ctx): tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained(MODEL_PATH) model.eval() inputs = tokenizer(ctx.text, return_tensors='pt') with torch.no_grad(): out = model.generate(**inputs, max_new_tokens=128, pad_token_id=tokenizer.eos_token_id) decoded = tokenizer.decode(out[0], skip_special_tokens=True) m = re.search(r'(?i)answer\\\W*(.*?)(?=\
+|$)', decoded) return m.group(1).strip() if m else decoded

Exasol 데이터베이스 내에서 GPT-2 모델을 로드하고 추론을 수행하는 Python UDF 코드

파인튜닝 후 개선된 모델의 질문 응답 결과. — Screenshot파인튜닝을 통해 모델이 문맥을 이해하고 정확한 답변을 생성하는 능력이 향상되었음을 보여준다.

실무 Takeaway

LLM을 밑바닥부터 학습하는 것은 자원 소모가 크므로, 대부분의 실무 환경에서는 사전 학습된 모델을 파인튜닝하는 것이 효율적이다.
데이터베이스 내에서 모델을 실행하면 데이터 이동 비용을 제거하고 클러스터 노드 전반에서 병렬 추론을 수행할 수 있다.
AI 보조 개발(vibe coding)은 프로토타이핑 속도를 높이지만, 생성된 코드의 추상화 계층을 이해하고 관리하는 노력이 필요하다.

언급된 리소스

문서Stanford Question Answering Dataset (SQuAD)

GitHubExasol AI-Lab

CREATE OR REPLACE PYTHON3_TE SCALAR SCRIPT "EXASOL_DIB"."GPT2_INFERENCE" ("text" VARCHAR(10000) UTF8) RETURNS VARCHAR(10000) UTF8 AS from pathlib import Path from transformers import AutoTokenizer, AutoModelForCausalLM import torch, re MODEL_PATH = Path('/buckets/bfsailab/xxxxxx/ai-lab/models/xxxxxx/dirkllm_gpt2_question-answering') def run(ctx): tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained(MODEL_PATH) model.eval() inputs = tokenizer(ctx.text, return_tensors='pt') with torch.no_grad(): out = model.generate(**inputs, max_new_tokens=128, pad_token_id=tokenizer.eos_token_id) decoded = tokenizer.decode(out[0], skip_special_tokens=True) m = re.search(r'(?i)answer\\\W*(.*?)(?=\ +|$)', decoded) return m.group(1).strip() if m else decoded

LLM을 밑바닥부터 학습하고 Exasol에 배포하기까지의 여정

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

LLM을 밑바닥부터 학습하고 Exasol에 배포하기까지의 여정

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드