Explication détaillée de l'indice forward et de l'indice inversé


Dingdu! Voici la compilation des supports de cours d'étude de Xiao Ah Woo. Un bon souvenir n'est pas aussi bon qu'un mauvais stylo, c'est aussi une journée pour progresser. Avançons ensemble!
Insérez la description de l'image ici

1. Indice positif

Une fois que le robot d'exploration d'araignée a subi des opérations telles que l'extraction de texte, la segmentation de mots chinois et la déduplication, le résultat est une chaîne de mots unique qui peut refléter le contenu de l'objet de la page. Ensuite, le programme d'indexation des moteurs de recherche peut extraire des mots 为该页面建立与关键词的对应关系- clés , et ce processus est appelé 正排索引.

1.正排索引: 由文档指向关键词

 文档--> 单词1 ,单词2

单词1 出现的次数  单词出现的位置; 单词2 单词2出现的位置  ...
正排索引:在搜索栏输入id查词条 
(已知id)

Deuxièmement, l'indice inversé

Lorsque l'utilisateur est dans la zone de recherche d' 输入关键词un moteur de recherche, le moteur de recherche le donne 和关键词有关的页面展现à l'utilisateur et ce processus est appelé 倒排索引.

2.倒排索引: 由关键词指向文档

单词1--->文档1,文档2,文档3

单词2--->文档1,文档2
倒排索引:
将搜索框中的词进行搜索查到哪些id包含这个词,在查这些id,找到词条 
(通过分词查出id) 

3. Pourquoi les moteurs de recherche choisissent-ils un index inversé?

L'index direct ne peut pas être utilisé directement pour le classement . S'il n'existe qu'un index direct, le programme de classement doit analyser tous les fichiers de la bibliothèque d'index pour trouver les fichiers qui contiennent ce mot-clé et effectuer des calculs de corrélation. De cette manière, les résultats du classement ne peuvent pas être renvoyés en temps réel .

Ainsi, le moteur de recherche indexera la base de données en cours de reconstruction 倒排索引, la table de page correspondante aux mots-clés, mot-clé dans la page correspondante.

De cette manière, lorsqu'un utilisateur recherche un certain mot-clé, le programme de classement localise ce mot-clé dans l'index inversé, et peut immédiatement trouver toutes les pages contenant ce mot-clé.

Quatrièmement, les avantages de l'indice inversé

1)不需要锁,提升并发能力,避免锁的问题。
(2)数据不变,一直保存在os cache中,只要cache内存足够。
(3)filter cache一直驻留在内存,因为数据不变。
(4)便于数据压缩,可以大幅度提高压缩率,节省cpu和io开销。
(5)在处理复杂的多关键字查询时,可在倒排表中先完成查询的并、交等逻辑运算,得到结果后再对记录进行存取,这样把对文档的查询转换为地址集合的运算,从而提高查找速度。

V. Résumé

正排索引和倒排索引的区别简单记为:
正排索引:文档 ---> 单词
倒排索引:单词 ---> 文档

L'index inversé a un large éventail de scénarios d'application, tels que
les moteurs de recherche, l'indexation de bases de données à grande échelle, la récupération de documents, la récupération multimédia / la récupération d'informations, etc.
En bref, l'index inversé est un mécanisme d'indexation important dans le champ de recherche.

Fin!
D'autres dossiers d'apprentissage des connaissances de cours viendront plus tard!

就酱,嘎啦!

Insérez la description de l'image ici

Remarque:
1. La vie est diligente, rien n'est gagné.
2. Pour connaître la différence entre l'index direct et l'index inversé, veuillez consulter l'article de blog: https://blog.csdn.net/u011243684/article/details/85264284

Je suppose que tu aimes

Origine blog.csdn.net/qq_43543789/article/details/108661502
conseillé
Classement