다중 저차원 적응
하나의 베이스 모델에 여러 개의 LoRA 어댑터를 동시에 로드하여, 요청마다 서로 다른 미세 조정 가중치를 실시간으로 교체하며 적용하는 기술이다. 이를 통해 여러 사용자의 맞춤형 모델을 하나의 GPU 자원에서 효율적으로 공유할 수 있다.
vLLM과 AWS의 협업: MoE 모델 Multi-LoRA 추론 성능 454% 향상 비결