【NLP】_02_NLP经典任务


 

【一】NER(命名实体识别)
  • ORG(组织),LOC(地点),PER(人物)
     
  • 常用方法(原文链接:https://blog.csdn.net/weixin_37665090/article/details/89454829)
  • LSTM 的优点是能够通过双向的设置学习到观测序列(输入的单词)之间的依赖,在训练过程中,LSTM 能够根据目标(比如识别实体)自动提取观测序列的特征,但是缺点是无法学习到状态序列(输出的标注)之间的关系,要知道,在命名实体识别任务中,标注之间是有一定的关系的,比如 B类标注(表示某实体的开头)后面不会再接一个 B类标注,所以 LSTM 在解决 NER 这类序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习到标注上下文的缺点。

  • 当用 Bi-LSTM 来做命名实体识别时,Bi-LSTM 的输出为实体标签的分数,且选择最高分数对应的标签。然而某些时候,Bi-LSTM 却不能得到真正正确的实体标签,这时候就需要加入 CRF 层。

  • CRF 由Lafferty 等人于2001 年提出,结合了 最大熵模型隐马尔科夫模型 的特点,能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。

  • 所以一般的做法是,在 LSTM 后面再加一层CRF,以获得两者的优点。

 
 

【二】Relation Extraction(关系提取)

 
【2.1】 Bootstrap:由 规则 生成 记录,再生成 规则,以此类推直到收敛

 
【2.2】 Snowball:在 Bootstrap 的基础上,每个循环都增加了 评估过滤规则,和 评估过滤记录 的操作
 

  • 重新定义规则,使用 <五元组>
     


     
  • 五元组 构建向量后,通过 聚类 将规则减少
发布了37 篇原创文章 · 获赞 5 · 访问量 1911

猜你喜欢

转载自blog.csdn.net/qq_34330456/article/details/104354693
NLP