SwiGLU
Llama 계열 모델에서 사용되는 활성화 함수로 기존의 ReLU보다 모델의 표현력을 높이고 학습 안정성을 개선한다. 현대적인 트랜스포머 아키텍처의 필수 요소이다.
GPT-2를 능가하는 357M 파라미터의 독창적 아키텍처 Prisma 공개
노트북에서 직접 학습시키는 나만의 Llama 3 모델
Llama 3를 바닥부터 학습한다? 30분 만에 끝내는 나만의 모델 만들기