IT/Elasticsearch

ES analyzer 설치하기 (nori webinar) (1/3)

준나이 2018. 10. 25. 16:53

https://info.elastic.co/2018-09-19-Nori-Text-Analyzer-Webinar.html

[1/3] arirang_analyzer, openkoreantext-analyzer, seunjeon_analyzer, nori_analyzer 설치

elasticsearch 6.4.0 환경에서 진행 (nori는 elasticsearch 6.4.0 이상 버전에서만 설치 가능)

[설치순서]

1. elasticsearch / logstash / kibana / filebeat 설치
2. elasticsearch plugin을 설치 할 수 있는 file 만들기
3. analyzer에 따라 위에서 만든 file을 이용해서 plugin을 설치하거나 다운로드

4. 원본 text를 담고 있는 original_index 만들기 (using filebeat)
5. analyzer 이후의 결과를 담을 수 있는 각각의 analysed_index 생성
6. reindex를 이용해서 original_index에서 각각의 analysed_index로 형태소 분석
7. tag cloud를 이용해서 잘 parsing 됐는지 확인




1. ELK + filebeat설치
es / kibana / filebeat .tar.gz 압축풀기
리눅스에 프로그램 설치하기 - http://joonable.tistory.com/8?category=681594

2. elasticsearch plugin을 설치 할 수 있는 file 만들기
analyzer를 사용하기 위해선 analyzer 별로 elastic plugin을 설치해줘야한다.
elasticsearch plugin을 설치하는 방법은 2가지가 있는데,

손쉽게 plugin package manager를 통해 설치할 수도 있고, 설치해야하는 plugin을 file의 형태로 만들어 설치할 수도 있다.

1) file을 이용해 설치해야하는 plugin : analysis-arirang / analysis-openkoreantext / analysis-seunjeon
2) plugin package manager를 이용해 설치해야하는 plugin : analysis-nori


3. elasticsearch plugin 설치
elsticsearch/bin/elasticsearch-plugin 으로 플러그인 설치


1) file을 이용한 plugin 설치

(1) arirang
- https://github.com/HowookJeong/elasticsearch-analysis-arirang/releases
접속하여 elasticsearch 버전에 맞는 .zip file 다운로드
- bin/elasitcserach-plugin install file://path/to/zip/file
- file:// 절대 경로만 인식

(2) openkoreantext
- https://github.com/open-korean-text/elasticsearch-analysis-openkoreantext/releases 접속하여 elasticsearch 버전에 맞는 .zip file 다운로드
- 맞는 버전이 없다면 최신버전 다운로드 후, zip file 압축을 풀고 plugin-descriptor.properties를 elasticsearch.version=6.x.x 본인 버전에 맞게 바꿔준다. 다시 zip로 만들기
- bin/elasitcserach-plugin install file://path/to/zip/file



(3) seunjeon
https://edkoon35.github.io/2017/08/03/elasticsearch-eunjeon-tokenizer/

[seunjeon 설치순서] : mecab-ko (은전한닢 형태소분석기) -> mecab-ko-dic (사전) -> mecab-java (선택) -> es플러그인 (seunjeon_analyzer)


2) download를 이용한 nori plugin 설치

bin/elasitcserach-plugin install analysis-nori

3) plugin이 잘 설치 됐는지 확인하기

bin/elasitcserach-plugin list

출력 결과

analysis-arirang
analysis-nori
analysis-openkoreantext
analysis-seunjeon