multi-head attention
-
Transformer Model 개념 및 모델 구조Data Science/ML&DL 모델 2022. 10. 28. 00:20
1. 개요 1.1 기존 Sequence to Sequence Model의 한계 context vector에 입력 문장의 정보를 압축하여 병목현상 발생 및 성능하락이 야기됨. (하나의 context vector가 입력 문장의 모든 정보를 가지고 있어야함.) (Context Vector는 고정된 길이의 벡터) Decoder에서 매번 히든스테이트를 갱신해야함. sos : start of sentence eos : end of sentence 1.2 Attenstion 개념이 추가된 Sequence to Sequence Model RNN에서 매 입력에따라 나오는 히든스테이트 전체를 예측의 입력으로 넣어주기위한 Attention Vector 등장. (아직 Transformer가 아닙니다.) Attention Ve..