命名实体技术

在这里插入图片描述

简历分析:抽取有用分析。
在这里插入图片描述
搭建ENR分类器
1、定义实体种类。2、准备训练数据.3、训练ENR
NER方法:
利用规则(比如正则)、投票模型、利用分类模型(非时序 模型:逻辑回归、SVM;时序模型:HMM)

基于规则的方法:用正则的办法写一些规则或者利用一定定义好的完整的词库,最后就是利用人工的办法。

基于投票的方法:统计每个单词的实体类型,记录针对每个单词出现概率最大的实体模型。例前三句话中讲London划分为GEO,第四句话划分为location。那么再出现London这个单词那么它为GEO的可能性很大。

做特征工程,提取一些特征,就有了特征向量,将特征向量放入模型里面,进行学习训练。最重要的工程:特征工程。
特征提取:随机森林,缺点:无法考虑上下文单词信息。
我们所进行的特征提取(以英文作为例子):
1、Bag-of-word features:前后词、当前词、前前词、后后。
2、词性考虑,包括前后词的词性,前前后后词的词性
3、冠词
4、前缀后缀
5、特性:是否大写、包含多少个大写字母、是否有特殊符号、是否包含数字

特征编码(Feature Encoding)
常见的特征种类:
1、分类categoryl特征 :转化为01 10 这种
在这里插入图片描述
2、连续型特征
身高特征、温度特征、
处理办法:直接使用(做归一化的操作:将特征归为0~1;特征做高斯分布);连续特这行做离散化处理,比如身高,每10cm为一组 ,即转为类别:
在这里插入图片描述
做离散化:有时候我们用的是逻辑回归,为线性模型,如果我们想得到非线性的结果,那么将连续特征离散化,添加一些非线性因素,这样模型就具有非线性的性质;

3、 Ordinal Feature
与连续型特征不一样,比如成绩(ABCD)
连续性:
在这里插入图片描述
在这里插入图片描述
ordinal feature:用规则去产生这个特征,只能了解到顺序,但是不知道他们之间量化关系。
处理办法:
1、直接使用
2、当做分类特征使用

猜你喜欢

转载自blog.csdn.net/qq_38851184/article/details/114278704