rope
회전 행렬을 사용하여 토큰의 상대적 위치 정보를 주입하는 기법으로 현재 대부분의 LLM에서 표준으로 사용된다.
3억 파라미터로 GPT-2를 압도하다? 새로운 G²LU 구조의 프리즈마 모델 공개
노트북에서 직접 학습시키는 나만의 Llama 3 모델
Llama 3를 바닥부터 학습한다? 30분 만에 끝내는 나만의 모델 만들기
오디오와 비디오의 완벽한 싱크, JavisDiT++로 오픈소스 SOTA 달성
다중 인물 오디오-비디오 생성의 혁신, DreamID-Omni로 정교한 제어 실현