信息去重——降低爬虫分析数据误报率

最近在做的项目提出了个需求,仅以此文记录。

  • 项目背景:对售假人员进行搜索,爬取其所在公司,关联人员(如上级等),并关联相关售假公司,爬取相应信息。
  • 举例:给出的售假人员张三,他所在的公司有位合伙人李四,李四同时还经营多家公司,爬取张三的基本信息,再根据所爬取到的张三所在公司,爬取关联人员——李四。由李四出发,爬取李四相关的公司。
  • 需求:网页爬取到相关联公司误报率较高,需降低误报率。目前所使用确认关联算法:搜索待确认公司,若其与张三出现在同一页面,认为该公司为关联公司。但有可能存在广告页等,该公司可能仅仅在网页上打广告。
  • 目前思路:1、爬取天眼查等公司信息公示网站,从而得到公司信息。优点:准确率高。缺点:天眼查反爬虫做的太好了…… 2、使用文本分析方法,进行关系提取。优点:方便操作。缺点:技术难度较高

    如果有别的朋友也做这方面的研究欢迎交流哇!

天眼查信息爬取

由于我的需求不需要大量爬取天眼查的网页,因此爬取起来不是很难。要注意的是爬的时候一定要导入cookies,不然不知道啥时候就跳到登陆界面了。
这种方法确实简单,直接就爬到了keyword的合伙人、公司、手机号、etc。站在巨人的肩膀上啊。
天眼查本身的搜索方法不外乎是爬取各省市的工商网站,把信息保存到数据库中,再进行分析统计,即可给出关系网。如果采用这种方法解决我当前的需求未免杀鸡用牛刀了,直接爬取天眼查的数据又未免太投机取巧,因此我还是继续研究实体关系提取方法。

基于特征学习的关系提取方法

目前主流的关系提取方法包括基于神经网络、深度学习的提取方法。贴几个参考链接方便学习。
主流方法介绍
文献综述
现有的关系提取方法包括有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法。
有监督的学习方法包括基于规则的、基于特征的与基于核函数的方法。
无监督实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类关系类型词选择两个过程。
半监督实体关系抽取方法从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合。重复上述过程,迭代得到实体关系实例和序列模式。
开放式实体关系抽取能避免针对特定关系类型人工构建语料库,可以自动完成关系类型发现和关系抽取任务。

这几大类方法中,有监督、无监督、半监督理解起来比较容易,但是开放式实体关系抽取这个概念还不是很明白。明天继续学习!

猜你喜欢

转载自blog.csdn.net/u012277608/article/details/81745359
今日推荐