[NLP 기본가정]
통계의 기반에는 중심극한정리, 정규분포 등 여러 가설을 참이라고 놓듯이,
NLP에도 이와 같은 기본가정이 몇 가지 존재한다.
1. vector space models :
모델이 텍스트를 이해하기 위해선 벡터(숫자)로 표현해야하는데 그것을 위한 기본 가정이다. (일부 모델은 단어를 숫자로 안바꾸고 그대로 사용하기도 한다.) 어떠한 방법으로 벡터를 표현하든, 벡터 공간에 벡터로 표현된 문서들 사이의 거리가 가깝다면 문서의 의미도 유사하다.
2. distributional hypothesis :
한 단어의 앞, 뒤로(주변에) 함께 등장하는 단어들은 서로 관련이 있다. 모두가 잘 알고 있는 word2vec의 기본 가정이기도 하며 word2vec 결과를 보면 한 벡터공간의 주변에는 그 단어와 관련된 단어가 있다. 여기서 관련된 단어로는 자주 같이 등장하는 것이 알고리즘의 기본가정이므로 유사한 의미의 말 뿐만이 아니라 반대말이 있을 수도 있다.
3. statistical semantics hypothesis :
언어 사용의 통계적 패턴은 사람들이 의미하는 바를 이해하는 데 쓰일 수 있다.
4. bag of words hypothesis :
한 문서를 이루는 단어가 비슷하다면 비슷한 벡터 공간에 위치하게 되고 문서의 의미도 비슷하다.
5. Latent relation hypothesis :
비슷한 패턴으로 동시에 등장하는 단어쌍은 유사한 의미적 관계를 지니는 경향이 있다.
REF
https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/10/frequency/
'Data Science > NLP' 카테고리의 다른 글
텍스트 전처리 과정과 사전의 쓰임 (0) | 2019.04.05 |
---|---|
Bag-Of-Words Model (0) | 2018.11.25 |
Text Preprocessing (텍스트 전처리) (0) | 2018.11.25 |
Text Similarity (Jaccard Similarity, Cosine Similarity, Euclidean distance) (0) | 2018.11.15 |