평균 풀링
Transformer 모델의 각 토큰별 출력 벡터들을 평균 내어 문장 전체를 대표하는 하나의 고정 길이 벡터를 생성하는 기법이다. 문장의 전반적인 의미 정보를 압축하여 임베딩을 생성할 때 널리 사용된다.