목록2024/07/01 (1)
버티의 블로그
[자연어처리 #05] Attention & Transformer
Attention기존 seq2seq는 encoder에서 나오는 context vector에 모든 정보가 함축되어 있어 원래 단어에 대한 정보 손실이 발생할 수도 있고, 이 context vector을 단어 생성 시마다 모두 사용하므로 비효율적이다. 이를 개선하기 위해 탄생한 메커니즘이 Attention이다. Attention은 seq2seq와 동일한 구조를 기반으로 하는데, 차이점은 decoder에서 번역 단어를 예측할 때 decoder의 hidden state와 encoder의 hidden state를 내적해서 유사도를 파악한다. 이 값을 Attention Score라고 하고 이후 softmax를 붙여 정규화를 진행하면 이 값들을 확률적으로 접근할 수 있기 때문에 일종의 가중치로 사용할 수 있다. 그럼..
전공 공부/자연어처리
2024. 7. 1. 22:28