가우시안 오차 선형 유닛
입력값에 가우시안 분포의 누적 분포 함수를 곱하여 비선형성을 부여하는 활성화 함수이다. ReLU보다 부드러운 곡선을 가지며 GPT-2를 포함한 최신 트랜스포머 모델에서 성능 향상을 위해 널리 사용된다.
GPT-2를 내 손으로 직접? MAX API로 배우는 LLM 아키텍처