【Elasticsearch学习之一】Elasticsearch

环境
  虚拟机:VMware 10
  Linux版本:CentOS-6.5-x86_64
  客户端:Xshell4
  FTP:Xftp4
  jdk8
 

一、概念
ElasticSearch:
  基于Lucene全文搜索框架;
  实时的高扩展的分布式的开源搜索引擎;
  Java开发,基于RESTful web接口;

Lucene是一个全文搜索框架,而不是应用产品。核心工作就是给搜索内容定位,使用方式:倒排索引。

何为倒排索引?
举个例子:有个文档,文档有以下两行数据
我是中国人(1)
中国是全球人口最多的国家,中国人也最多(2)

索引如下:
1,我 (1:1){0}:(第1行:出现1次){偏移量0}
2,中国 (1:1) {2},(2:2){0,15}:(第1行:出现1次){偏移量2},(第2行:出现2次){偏移量0和15}

 

输入源:对于要处理的数据,可以是文本文件,可以是数据库数据,也可以网页,我们将其抽象为Document文档,文档里可以定义多个Field,比如context、size、path等等,每个field都会设置三个设置:是否保存、是否分词、是否索引;
分词处理:根据设置,进行过滤,分词
倒排索引:根据设置,进行索引
存储:根据设置,对于需要保存的数据进行保存,比如文档路径;

二、ES集群搭建

官网文档
elasticsearch详解
Elasticsearch实战干货
Lucene介绍与入门使用

猜你喜欢

转载自www.cnblogs.com/cac2020/p/10511809.html