1.默认情况下,计算文档相关性得分的算法是 TF-IDF(term frequency-inverse document frequency, 词频-逆文档频率)。
- 词频——所查找的单词在文档中出现的次数越多,得分越高。
- 逆文档词频——如果某个单词在所有文档中比较少见,那么该词的权重越高,得分也会越高。
2.至少在Elasticsearch中,文档比数据表的行更为灵活。这主要是因为文档可以是具有层次型的 。
3.端口 9300 默认用于节点之间的通信,称为transport。
4.端口 9200 默认用于 HTTP 的通信。 应用程序使用 RESTAPI 时连接这个端口。
5.逻辑设计一一搜索应用所要注意的 。 用于索引和搜索的基本单位是文挡,可以将其认为是关系数据库里的一行。文档以类型来分组,类型包含若干文档,类似表格包含若干行。 最终,一个或多个类型存在于同一索引中,索引是更大的容器,类似SQL世界中的数据库 。
6.物理设计一一在后台 Elasticsearch是如何处理数据的。 Elasticsearch将每个索引划分为分 片, 每份分片可以在集群中的不同服务器问迁移。
7.在 Elasticsearch 中文档有几个重要的属性 。
- 它是自我包含的。 一篇文档同时包含宇段(如 name )和它们的取值(如lElasticsearch Denver )。
- 它可以是层次型的。 文档中还包含新的文挡。
- 它拥有灵活的结构。文档不依赖于预先定义的模式。
8.Elasticsearch 中的文档是无模式的,也就是说井非所有的文档都需要拥有相同的字段,它们不是受限于同一个模式。
9.类型是文档的逻辑容器,类似于表格是行的容器。
10.每个类型中字段的定义称为映射。
11.索引是映射类型的容器。
12.分片也是 Elasticsearch 将数据从一个节点迁移到另一个节点的最小单位 。
13.默认情况下,可以连接集群中的任一节点并访问完整的数据集,就好像集群只有单独的一个节点 。
14.一份分片是一个 Lucene 的索引,所以一个 Elasticsearch 的索引由多个 Lucene 的索引组成。
15.副本分片可以在运行的时候进行添加和移除,而主分片不可以。
16.垂直扩展:增加硬件。水瓶扩展:增加节点。
17.Elasticsearch使用round-robin的轮询机制选择可用的分片(主分片或副本分片),并将搜索请求转发过去。
18.如果没有事先创建 other-index,这个特定的请求将会失败。为了忽略这种问题,可以像添加 pretty 旗标那样添加 ignore_unavailable 旗标。
19.如果搜索超时了 , timed_out 的值就是 true, 而且只能获得超时前所收集的结果。