工业界NER

一、背景

由于工业界,比如搜索领域,文本领域实体识别往往除了在各个label下f1-score达到更高的要求以外,还需要考虑成本,效率,以及ner抽取出实体的下游应用场景的配合使用等情况。query-ner问题一般具有以下特点:

  • 新增实体数量庞大且增速较快:业务领域发展迅速,新店、新商品、新服务品类层出不穷;用户Query往往夹杂很多非标准化表达、简称和热词(如“牵肠挂肚”、“吸猫”等),这对实现高准确率、高覆盖率的NER造成了很大挑战。
  • 领域相关性强:搜索中的实体识别与业务供给高度相关,除通用语义外需加入业务相关知识辅助判断,比如“剪了个头发”,通用理解是泛化描述实体,在搜索中却是个商家实体。
  • 性能要求高:从用户发起搜索到最终结果呈现给用户时间很短,NER作为DQU的基础模块,需要在毫秒级的时间内完成。近期,很多基于深度网络的研究与实践显著提高了NER的效果,但这些模型往往计算量较大、预测耗时长,如何优化模型性能,使之能满足NER对计算时间的要求,也是NER实践中的一大挑战。

二 、方法

整体框架使用“实体词典匹配+模型预测”的方法实现

  1. 通过训练crf打分器,对实体词典结果进行打分,当实体词典无匹配或匹配结果打分低时,进行模型预测。

  2. 实体词典构造

    1. 从结构化信息中获取,如商家spuname,品牌,品类名
    2. 非结构化文本中挖掘,如商品详情,商家介绍等挖掘。
    3. 新词发现
      1. 无监督:通过紧密度,自由度指标进行筛选
      2. 有监督:专家设计语法,规则进行挖掘
      3. 远程监督:少样本学习
  3. 在线词表匹配策略

    1. 双向最大匹配

      这种策略比较简陋,对词库准确度和覆盖度要求极高

    2. crf分词预处理

    3. pattern正则表达式修复

  4. 模型预测

    1. bert蒸馏

      根据无标签数据的多少,可以使用logtis,分布,值近似实现蒸馏

    2. 线上模型预测加速

      1. 混合精度
      2. batching
      3. 算子融合
    3. 知识增强

      1. 结合lattice,flat融合词特征
    4. 两阶段ner尝试

    5. 弱监督ner

参考

猜你喜欢

转载自blog.csdn.net/be_humble/article/details/130490766