IT/Elasticsearch

nori, arirang, openkoreantext, mecab 형태소분석기 사전형식

준나이 2018. 11. 8. 11:56

Nori 사전 형식

.{ES_HOME}/config/user_dic.txt

c++
C샤프
세종
세종시 세종 시

결과 :
c++ => c++
c샤프 => c샤프
세종 => 세종
세종시 => 세종 시 (default) // 세종시 => 세종시 세종 시 (optional)

https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-nori-tokenizer.html



Arirang 사전 형식

분해전 단어:분해후단어1,분해후단어2,…,분해후단어N:DBXX
분해전 단어에 하여(다)동사(D), 되어(다)동사(B) 가 붙을 수 있는지 확인해야 함
(D : True = 1, False = 0 / B : True =1, False = 0)

객관화:객관,화:1100
분해전 단어 : 객관화
분해후 단어1 : 객관
분해후 단어2 : 화
D : 1 => 객관화하다 = True
B : 1 => 객관화되다 = True

https://www.elastic.co/kr/blog/arirang-analyzer-with-elasticsearch


open-korean-text 사전 형식

기본사전 이외에 사용자가 원하는 단어를 추가하여 사용할 수 있습니다.
예를들어 말썽쟁이를 분석하면 말썽(Noun)쟁이(suffix)로 추출되지만, 사전에 말썽쟁이를 추가하면 말썽쟁이(Noun)로 추출할 수 있습니다.

# {ES_HOME}/plugins/elasticserach-analysis-openkoreantext/dic/sampledictionary
말썽쟁이
뚜쟁이
욕쟁이할머니
...

https://github.com/open-korean-text/elasticsearch-analysis-openkoreantext/blob/master/README.md



Mecab사전 형식 (v2.0)

태양,,,NNG,*,T,태양,*,*,*,*
서울,,,NNP,지명,T,서울,*,*,*,*
불태워졌,,,VV+EM+VX+EP,*,T,불태워졌,Inflected,VV,EP,불태우/VV/*+어/EC/*+지/VX/*+었/EP/*

 

표층형

0

0

0

품사 태그

의미 부류

종성 유무

읽기

타입

첫번째 품사

마지막 품사

표현

태양,,,,NNG,*,T,태양,*,*,*,*

태양

0

0

0

NNG

*

T

태양

*

*

*

*

서울,,,,NNP,지명,T,서울,*,*,*,*

서울

0

0

0

NNP

지명

T

서울

*

*

*

*

불태워졌,,,,VV+EM+VX+EP,*,T,불태워졌,Inflected,VV,EP,불태우/VV/*+/EC/*+/VX/*+/EP/*

불태워졌

0

0

0

VV+EM+VX+EP

*

T

불태워졌

Inflected

VV

EP

불태우/VV/*+어/EC/*+지/VX/*+었/EP/*

해수욕장,,,,NNG,지명,T,해수욕장,Compound,*,*,해수/NNG/*+/NNG/*+/NNG/*

해수욕장

0

0

0

NNG

지명

T

해수욕장

Compound

*

*

해수/NNG/*+욕/NNG/*+장/NNG/*

토큰 구조

표층형/품사태그/의미부류



품사 태그 및 사전 형식(v2.0) : https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=1718487366