이 논문은 pre-trained word vector과 CNN을 사용하여 sentence classification을 진행했다.
static layer: word vector 업데이트 없이 weight 값들만 변경
non-static layer: weight 업데이트 하면서 word vector도 업데이트
- ppt 오른쪽 'Convolution Layer' 수식을 보면 두 가지의 layer 동시 사용했다는 것을 알 수 있다
- feature중 가장 큰 값만 추출(Max-over-time Pooling)
- Dropout을 적용하고 activation function으로는 Softmax 사용
Google News에서 제공하는 word 1000억개로 학습시킨 word2vec 벡터를 Pre-trained word vector로 사용
CNN으로 학습 시키기 위한 모델은 4가지 종류가 있다. (모든 모델의 성능 체크도 함)
해당 연구 논문에서는 CNN-multichannel(CNN-static + CNN-non-static)이라는 모델은 사용했다.
pre-trained word vector 사용 없이 randomly initialization한 CNN-rand 성능은 좋지 않은 결과를 냄
하지만, CNN-static과 CNN-non-static 모델을 둘 다 사용한다고 해서 항상 좋은 성능을 내는 것도 아니다.
CNN-static 모델은 semactic한 의미를 같은 class라 생각하고
CNN-non-static 모델은 synthetic한 의미를 같은 class라고 생각했다.
댓글