第一部分:正则搜索
优点:
匹配精准
代码简洁
缺点:
难以理解语义
可读性差
性能较低
维护困难
灵活性低
(因为组合的形式太繁杂了)
第二部分:词义搜索(解决上面的正则搜索)
(1)基本含义
是一种基于词嵌入的搜索方法,通过计算嵌入之间的相似度,从而找到与目标单词相关的单词。
上图展示的就是将左侧7维的数据映射到二维空间中,从而可以更加直观地看出不同单词之间的关联度强弱
优点:词义搜索能够更加准确地理解文本的内容,无需人工配置规则或者同义词典,就能很好地实现信息的检索。
第三部分:句子向量Doc2vec
我们第二部分说的是词义搜索,现在“句子向量”,在词义搜索任务中,有时候要搜索的并非一个词,而是一个句子段落,或者是文章,我们也可以将这些表示成向量的形式。
句子向量表示的方法: