문자당 비트 수
텍스트 압축 효율을 측정하는 지표로, 모델이 각 문자를 예측하는 데 필요한 평균 비트 수를 의미하며 낮을수록 성능이 좋다.
7세기 철학과 튜링의 만남: LSTM을 압도한 새로운 반응-확산 모델
CPU만으로 학습 완료? MatMul 없는 29M 파라미터 모델의 탄생