《Elasticsearch实战》学习笔记

        1.默认情况下,计算文档相关性得分的算法是 TF-IDF(term frequency-inverse document frequency, 词频-逆文档频率)。

  • 词频——所查找的单词在文档中出现的次数越多,得分越高。
  • 逆文档词频——如果某个单词在所有文档中比较少见,那么该词的权重越高,得分也会越高。

        2.至少在Elasticsearch中,文档比数据表的行更为灵活。这主要是因为文档可以是具有层次型的 。

        3.端口 9300 默认用于节点之间的通信,称为transport。

        4.端口 9200 默认用于 HTTP 的通信。 应用程序使用 RESTAPI 时连接这个端口。

        5.逻辑设计一一搜索应用所要注意的 。 用于索引和搜索的基本单位是文挡,可以将其认为是关系数据库里的一行。文档以类型来分组,类型包含若干文档,类似表格包含若干行。 最终,一个或多个类型存在于同一索引中,索引是更大的容器,类似SQL世界中的数据库 。

        6.物理设计一一在后台 Elasticsearch是如何处理数据的。 Elasticsearch将每个索引划分为分 片, 每份分片可以在集群中的不同服务器问迁移。

        7.在 Elasticsearch 中文档有几个重要的属性 。

  • 它是自我包含的。 一篇文档同时包含宇段(如 name )和它们的取值(如lElasticsearch Denver )。
  • 它可以是层次型的。 文档中还包含新的文挡。
  • 它拥有灵活的结构。文档不依赖于预先定义的模式。

        8.Elasticsearch 中的文档是无模式的,也就是说井非所有的文档都需要拥有相同的字段,它们不是受限于同一个模式。

        9.类型是文档的逻辑容器,类似于表格是行的容器。

        10.每个类型中字段的定义称为映射。

        11.索引是映射类型的容器。

        12.分片也是 Elasticsearch 将数据从一个节点迁移到另一个节点的最小单位 。

        13.默认情况下,可以连接集群中的任一节点并访问完整的数据集,就好像集群只有单独的一个节点 。

        14.一份分片是一个 Lucene 的索引,所以一个 Elasticsearch 的索引由多个 Lucene 的索引组成。

        15.副本分片可以在运行的时候进行添加和移除,而主分片不可以。

        16.垂直扩展:增加硬件。水瓶扩展:增加节点。

        17.Elasticsearch使用round-robin的轮询机制选择可用的分片(主分片或副本分片),并将搜索请求转发过去。

        18.如果没有事先创建 other-index,这个特定的请求将会失败。为了忽略这种问题,可以像添加 pretty 旗标那样添加 ignore_unavailable 旗标。

        19.如果搜索超时了 , timed_out 的值就是 true, 而且只能获得超时前所收集的结果。

猜你喜欢

转载自blog.csdn.net/zaimeiyeshicengjing/article/details/130266795