Searching and Ranking
用户在大量文档中搜索一系列单词,系统根据文档与这些单词的相关程度对搜索结果排序,将结果返回。
主流排序方法如下:
基于内容的排名(Content-Based Ranking)
根据网页的内容,利用某些可行的度量方式来对查询结果进行判断。
常见评价度量主要有以下几种:
1.单词频度(Word Frequency)
查询单词在文档中出现的次数可用来判断文档的相关程度。
2.文档位置(Document Location)
文档主题可能会出现在靠近文档开始处。
3.单词距离(Word Distance)
如果查询条件中有多个单词,则它们在文档中出现的位置应该靠得很近。
利用外部回指链接(Using Inbound Links)
利用站点的链接结构来决定查询结果中各项内容的重要程度。
1.简单计数(Simple Count)
在每个网页上统计链接的数目,并将链接总数作为针对网页的度量。
2.PageRank
该算法为每个网页都赋予一个指示网页重要程度的评价值。而重要程度是依据指向该网页的所有其他网页的重要性以及这些网页中所包含的链接数求得。
3.利用链接文本(Using the Link Text)
根据指向某一网页的链接文本来决定网页的相关程度。
从点击行为中学习(Learning from Clicks)
利用神经网络,使得用户通过搜索后只点击某条查询结果从而来提供其对搜索结果喜好程度的信息。