텍스트 텍스트는 대표적인 비정형 데이터이고, 텍스트 그 자체로는 분석을 할 수 없기 때문에 일정부분 정형화된 feature의 형태로 나타내야한다. 형태소 분석 분석에서 feature 하나하나는 의미를 가지고 있어야하기 떄문에 한국어에서 의미를 가지는 최소 단위인 형태소 단위로 텍스트를 잘게 쪼개줘야 한다. 도메인마다 서로 다른 단어들이 존재하고 신조어가 등장하면 잘못된 형태로 쪼개기 때문에 형태소 분석기가 올바르게 분석을 할 수 있도록 사용자 사전이필요하다. (미등록 단어 문제) 잘못된 예: 팩트를 → 팩, 트, 를 / 헤어에센스가 → 헤어에, 센스, 가 사용자 사전의 역할 : 텍스트 내 있는 키워드(혹은 어절)를 어떻게 파싱할것 같인가?에 대해 가이드를 준다. 불필요 pos 제거 형태소 분석을 하면 형..