Data Science/NLP 5

텍스트 전처리 과정과 사전의 쓰임

텍스트 텍스트는 대표적인 비정형 데이터이고, 텍스트 그 자체로는 분석을 할 수 없기 때문에 일정부분 정형화된 feature의 형태로 나타내야한다. 형태소 분석 분석에서 feature 하나하나는 의미를 가지고 있어야하기 떄문에 한국어에서 의미를 가지는 최소 단위인 형태소 단위로 텍스트를 잘게 쪼개줘야 한다. 도메인마다 서로 다른 단어들이 존재하고 신조어가 등장하면 잘못된 형태로 쪼개기 때문에 형태소 분석기가 올바르게 분석을 할 수 있도록 사용자 사전이필요하다. (미등록 단어 문제) 잘못된 예: 팩트를 → 팩, 트, 를 / 헤어에센스가 → 헤어에, 센스, 가 사용자 사전의 역할 : 텍스트 내 있는 키워드(혹은 어절)를 어떻게 파싱할것 같인가?에 대해 가이드를 준다. 불필요 pos 제거 형태소 분석을 하면 형..

Data Science/NLP 2019.04.05

Bag-Of-Words Model

[Bag-Of-Words] 1. The problem with Text 머신러닝 모델은 대체로 고정된 길이의 inputs과 ouputs을 요구한다.이러한 문제 때문에 대표적인 비정형 데이터인 text는 ML에서 작동하기 힘들다. 그래서 text는 숫자(vectors of numbers)로 변환되는 과정을 거치게 되는데,text가 vector로 표현된 형태를 vector representation 이라고 한다. e.g.) bag-of-words (occurence / count / frequency / tf_idf / bm25 ) / word2vec / doc2vec REF : NLP의 기본가정- vector space model 2. What is a Bag-of-words? 1) hypothesisba..

Data Science/NLP 2018.11.25

Text Preprocessing (텍스트 전처리)

[Text Preprocessing] Tokenising / stemming / lemmatising / pos tagging / stop words분석의 정확성을 높이고, 단어 수를 줄여 계산 복잡성을 감소시키기 위해 사용 1. Tokenising : tokenising : text의 본문을 토큰(token/word) 단위로 쪼개는 것 Tokenising 전 :['Hello Mr. Smith, how are you doing today?', 'The weather is great, and Python is awesome.', 'The sky is pinkish-blue.', "You shouldn't eat cardboard."] Tokenising 후 : ['Hello', 'Mr.', 'Smith',..

Data Science/NLP 2018.11.25

NLP 기본 가정

[NLP 기본가정] 통계의 기반에는 중심극한정리, 정규분포 등 여러 가설을 참이라고 놓듯이, NLP에도 이와 같은 기본가정이 몇 가지 존재한다. 1. vector space models : 모델이 텍스트를 이해하기 위해선 벡터(숫자)로 표현해야하는데 그것을 위한 기본 가정이다. (일부 모델은 단어를 숫자로 안바꾸고 그대로 사용하기도 한다.) 어떠한 방법으로 벡터를 표현하든, 벡터 공간에 벡터로 표현된 문서들 사이의 거리가 가깝다면 문서의 의미도 유사하다. 2. distributional hypothesis : 한 단어의 앞, 뒤로(주변에) 함께 등장하는 단어들은 서로 관련이 있다. 모두가 잘 알고 있는 word2vec의 기본 가정이기도 하며 word2vec 결과를 보면 한 벡터공간의 주변에는 그 단어와 ..

Data Science/NLP 2018.11.25

Text Similarity (Jaccard Similarity, Cosine Similarity, Euclidean distance)

document A, B가 있을 때, 2가지가 얼마나 비슷한지를 나타내는 척도이다. 1) Jaccard Similarity (자카드 유사도) 2) Cosine Similarity (코사인 유사도) 3) Euclidean Distance (유클리디안 거리) Sentence 1: AI is our friend and it has been friendly Sentence 2: AI and humans have always been friendly 1) Jaccard Similarity : document A와 B가 있다고 했을 때, 각각의 document의 word set이 겹치는 정도에 따라 두 document간 유사도가 높다고 판단한다. 값은 0과 1사이의 값이다. 2) Cosine Similarity :..

Data Science/NLP 2018.11.15