信息检索常用术语:用户需求(UN),查询(Query) 文档(document) 文档集(Crops)文档编号,词条化(将给定的字符序列拆分成一系列子系列的过程,拆分的每个子序列成为一个词条),词项(经过语言学预处理之后的归一化的词条)词项-文档关联矩阵,词项频率(词属性),文档频率(文档属性),倒排记录表(出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每个记录称为一个倒排项),通过倒排项可以获知哪些文档包含哪些单词。倒排文件。
信息检索系统IR
1 信息采集
2 整理信息
3 接受查询
分词算法
{
"error": {
"root_cause": [
{
"type": "cluster_block_exception",
"reason": "blocked by: [SERVICE_UNAVAILABLE/1/state not recovered / initialized];"
}
],
"type": "cluster_block_exception",
"reason": "blocked by: [SERVICE_UNAVAILABLE/1/state not recovered / initialized];"
},
"status": 503
}
英文分词的原理,输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大小写、结果输出
中文分词,基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词
倒排索引
布尔检索模型
Lucene字段类型
把该字段的内容索引并词条化,但是不保存词向量。如包含
文档的curd,查询,批量操作,统计操作,获取集群信息,索引和集群管理,