一、分词
我 今天 要去 天安门 看 升旗
天安门 每天 早上 升旗 是 几点
二、检索
三、索引
1)倒排检索
query(1⃣️天安门(term)2⃣️升旗(term)3⃣️是(term)4⃣️几点(term))
词表 |
倒排链 |
倒排表 |
天安门 |
➡️ |
1、2、3、4 |
每天 |
➡️ |
1、2 |
早上 |
➡️ |
1、3 |
七点 |
➡️ |
1、4 |
升旗 |
➡️ |
2、3 |
今天 |
➡️ |
|
doc:
- 我每天早上七点都看有关天安门的新闻
- 每天都去天安门看升旗
- 我早上看了有关天安门升旗的新闻
- 我早上七点去了天安门广场
为了简化倒排表,提升搜索速度,降低硬件开销,使用步长代替docid
2)正排排序
Doc(文档) ⬅️➡️ term(词)
四、高级搜索
AND:C
OR:A(C)B
NOT:A-B=(Area)A-(Area)C/B-A=(Area)B-Area(A)