weight-decay
학습 과정에서 가중치의 크기에 비례하는 페널티를 손실 함수에 추가하여 모델의 복잡도를 줄이고 과적합을 방지하는 정규화 기법이다.
LR만 조절하는 시대는 끝났다, PyTorch를 위한 범용 스케줄링 라이브러리
뇌의 효율성을 모방하다: 쌍곡선 기하학으로 구현한 저전력 AGI의 가능성