목록2024/06/23 (2)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dUj2ap/btsIajhO0y3/dJH2XEPPzEaca1AVC0eQ91/img.png)
Word2Vec기존 정수 인코딩과 one-hot 인코딩의 단점들은 다음과 같았다.단어 사이 연관성 파악의 어려움과도한 메모리 사용 문제희소 표현 (Sparse Representation) : 1이 0에 비해 너무 적어 확률이 낮아질 수 있다.Word2vec은 이러한 단점들을 개선한 방법이다.단어 사이 유사도를 Neural Network를 사용하여 Dense Representation으로 표현벡터 차원을 원하는 대로 설정 가능데이터를 이용해서 표현을 학습함.CBOW와 Skip-Gram이 존재1) CBOW (Continuous Bag of Words) : 주변 단어를 활용해 중간 단어를 예측주변 단어를 one-hot 인코딩하여 Input Layer로 입력, 이 값들을 산술평균 후 weight matrix를 ..
화분에 예쁜 꽃이 피었다.이 문장을 토큰화하면 다음과 같이 해야한다. 아래 처럼 명사/조사 사이나 어간/어미 사이도 분리해야한다.화분(명사) + 에(조사) + 예쁘(어간) + -ㄴ(어미) + 꽃(명사) + 이(조사) + 피(어간) + 었(어미) + 다(어미) 이런식으로 컴퓨터가 자연어를 효과적으로 처리할 수 있도록 전처리 과정을 거쳐야 한다. Pre-Processing텍스트 전처리 과정은 크게 3가지 단계가 있다. 1) Tokenization문장을 형태소 단위로 자른다. 주어진 문장에서 의미 부여가 가능한 단위를 찾는다.표준화 토큰화 방법인 Treebank Tokenization이 있다.문장 의미별로 나누는 문장 토큰화도 존재한다.한국어는 토큰화가 어렵다. Ex) 필요하다면 -> 필요(명사) + 하(접미..