LoRA 융합
저차원 적응(LoRA)을 통해 학습된 가중치 변화량을 원본 모델의 가중치에 직접 더하여 하나로 합치는 과정이다. 이를 통해 추론 시 추가적인 연산 오버헤드 없이 학습된 내용을 모델의 영구적인 일부로 만든다.
RAG 없이 모델 가중치에 직접 지식을 주입하는 'Sleeping LLM'