《Elasticsearch实战》学习笔记

1.默认情况下，计算文档相关性得分的算法是 TF-IDF(term frequency-inverse document frequency, 词频-逆文档频率)。

2.至少在Elasticsearch中，文档比数据表的行更为灵活。这主要是因为文档可以是具有层次型的。

3.端口 9300 默认用于节点之间的通信，称为transport。

4.端口 9200 默认用于 HTTP 的通信。应用程序使用 RESTAPI 时连接这个端口。

5.逻辑设计一一搜索应用所要注意的。用于索引和搜索的基本单位是文挡，可以将其认为是关系数据库里的一行。文档以类型来分组，类型包含若干文档，类似表格包含若干行。最终，一个或多个类型存在于同一索引中，索引是更大的容器，类似SQL世界中的数据库。

6.物理设计一一在后台 Elasticsearch是如何处理数据的。 Elasticsearch将每个索引划分为分片，每份分片可以在集群中的不同服务器问迁移。

7.在 Elasticsearch 中文档有几个重要的属性。

8.Elasticsearch 中的文档是无模式的，也就是说井非所有的文档都需要拥有相同的字段，它们不是受限于同一个模式。

9.类型是文档的逻辑容器，类似于表格是行的容器。

10.每个类型中字段的定义称为映射。

11.索引是映射类型的容器。

12.分片也是 Elasticsearch 将数据从一个节点迁移到另一个节点的最小单位。

13.默认情况下，可以连接集群中的任一节点并访问完整的数据集，就好像集群只有单独的一个节点。

14.一份分片是一个 Lucene 的索引，所以一个 Elasticsearch 的索引由多个 Lucene 的索引组成。

15.副本分片可以在运行的时候进行添加和移除，而主分片不可以。

16.垂直扩展：增加硬件。水瓶扩展：增加节点。

17.Elasticsearch使用round-robin的轮询机制选择可用的分片(主分片或副本分片)，并将搜索请求转发过去。

18.如果没有事先创建 other-index，这个特定的请求将会失败。为了忽略这种问题，可以像添加 pretty 旗标那样添加 ignore_unavailable 旗标。

19.如果搜索超时了， timed_out 的值就是 true，而且只能获得超时前所收集的结果。