attention-logits
어텐션 메커니즘에서 쿼리(Query)와 키(Key)의 유사도를 계산한 결과값으로 소프트맥스 함수를 거치기 전의 수치다. 이 값의 범위가 너무 커지면 수치적 불안정성이 발생하여 학습이 방해받을 수 있다.
Character.AI가 공개한 6비트 그래디언트 압축과 효율적 학습 비결