목록2024/07 (2)
버티의 블로그
이번에 배울 모델을 Transformer의 구조를 활용한 대표적인 사전훈련모델 2가지인 BERT와 GPT를 알아볼 것이다.BERTBERT는 Transformer의 encoder를 활용한 사전 훈련 언어 모델로, 다음과 같은 특징이 있다.양방향성(Bidirectional) Language Model이다.대용량 corpus data로 모델을 학습시킨 후, task에 맞게 전이학습(transfer learning)을 하는 모델이다.기존의 word embedding 방법인 Word2Vec, GloVe, FastText와 같은 방법들은 이후 task를 위해 LSTM이나 Seq2seq같은 복잡한 구조를 사용해야만 했지만, BERT를 사용하면 이러한 구조 없이 단순한 Nerual Network만 BERT에 얹어서 t..
Attention기존 seq2seq는 encoder에서 나오는 context vector에 모든 정보가 함축되어 있어 원래 단어에 대한 정보 손실이 발생할 수도 있고, 이 context vector을 단어 생성 시마다 모두 사용하므로 비효율적이다. 이를 개선하기 위해 탄생한 메커니즘이 Attention이다. Attention은 seq2seq와 동일한 구조를 기반으로 하는데, 차이점은 decoder에서 번역 단어를 예측할 때 decoder의 hidden state와 encoder의 hidden state를 내적해서 유사도를 파악한다. 이 값을 Attention Score라고 하고 이후 softmax를 붙여 정규화를 진행하면 이 값들을 확률적으로 접근할 수 있기 때문에 일종의 가중치로 사용할 수 있다. 그럼..