본문 바로가기
AI/논문 분석

[NLP] Convolutional Neural Networks for Sentence Classification - Yoon Kim

by 지수코딩 2019. 5. 20.

이 논문은 pre-trained word vector과 CNN을 사용하여 sentence classification을 진행했다.

 

static layer: word vector 업데이트 없이 weight 값들만 변경

non-static layer: weight 업데이트 하면서 word vector도 업데이트

 

- ppt 오른쪽 'Convolution Layer' 수식을 보면 두 가지의 layer 동시 사용했다는 것을 알 수 있다

- feature중 가장 큰 값만 추출(Max-over-time Pooling)

- Dropout을 적용하고 activation function으로는 Softmax 사용

 

Google News의 1000억 개의 단어로 학습 시킴

Google News에서 제공하는 word 1000억개로 학습시킨 word2vec 벡터를 Pre-trained word vector로 사용

 

CNN-multichannel = CNN-static + CNN-non-static

CNN으로 학습 시키기 위한 모델은 4가지 종류가 있다. (모든 모델의 성능 체크도 함)

해당 연구 논문에서는 CNN-multichannel(CNN-static + CNN-non-static)이라는 모델은 사용했다.

 

 

pre-trained word vector 사용 없이 randomly initialization한 CNN-rand 성능은 좋지 않은 결과를 냄

하지만, CNN-static과 CNN-non-static 모델을 둘 다 사용한다고 해서 항상 좋은 성능을 내는 것도 아니다.

 

CNN-static 모델은 semactic한 의미를 같은 class라 생각하고

CNN-non-static 모델은 synthetic한 의미를 같은 class라고 생각했다.

 

 

반응형

댓글