在大多数情况下结果集不为空，然后以集合中元素（符合条件的段落）为基础，统计如下参量[6]：字体大小、字体类别、粗体字数、斜体字数、首行缩进、段落平均长度。然后根据参量的重要性（我认为重要性依次递减）确定每个参量的权值，权值乘以统计值即是该参量对应的特征值，这样就得到一个长度为六的特征向量（{字体大小、字体类别、粗体、斜体、首行缩进、段落平均长度}）；然后统计未识别段落的对应向量，计算两个向量的夹角，如果小于阈值（在本系统中为 15 度）的，则认为也是分块标志，否则反之。值得注意的是，对于包含表格的简历，认为表格是天然的分块标志，对每个单元格进行标准化，去掉我们不需要的字符（字母、数字、中文、回车、空格以外的字符），就得到分块结果。

4、特征向量构造及夹角

选择合适的参量（本系统中选取上述六个参量） —〉确定每个参量的权值—〉计算各个参量的统计值—〉统计值乘以权值得到特征向量

特征向量体现了分割标志的特点，计算夹角是判定未知文本与已知文本的相似性，当相似程度达到一定程度时，我们认为未知文本也是分割标志。

三、分割算法

1、描述

1、规整输入文本，确定分割符；
2、规整分割符；
3、分割文本；
4、修正分割结果

2、分割算法实现

1）规整输入文本

对输入文本中的字符做处理，保留英文、数字、中文字符、标点符号（冒号除外），对于其他字符认为是元与元的分割标志。

一级分割符：回车、冒号、特殊符号（如星号等）
二级分割符号：空格

2）二级分割符分类处理：

孤悬点处理：
- 孤悬点：如果一个汉字的前后都是空格，则该字符称为孤悬点
- 孤悬点作用：格式作用，如：“出生年月”，孤悬点一律前向合并，合并为“出生年月”
英文之间的空格保留：英文之间、英文与数字之间、数字与数字之间、数字/英文与汉字之间的空格

3）按照分割符号将原文本分成若干元，存入链表

4）修正分割结果：

格式合并：
两个相邻的元都是长句（文本中有标点符号），且前一个元句末以非结束标点结束；
两个相邻的元后一个以标点符号开头；
两个长句元被一个二级分割符分开；
内容合并与切割：正则表达式去匹配每一个元，以决定是否需要切割或合并，然后做相应的处理。

四、信息处理算法

1、描述

分割后——》识别元——》判断其特性（标题或者内容）和类别

2、信息处理算法实现

1）预处理

作用：区别基本信息 && 复杂信息
过程：字段设计正则表达式库，按照分割后的文本顺序，依次对每一个元进行识别，把标题元找出来。
结果：分成基本信息和复杂信息两类

2）基本信息识别

强标识：如“男”、“汉族”等，设计正则表达式

基于信息上下文位置的“夹逼”算法：如果一个元的前后都是一个标题元，且前一个元是基本信息元，则认为该元是前一个元对应的内容元；

基于信息位置的滑动窗口算法：标题内容对应方式在排版上是以纵向为准，所以当转化成元序列时，顺序不在是“标题 1” +“内容 1” +“标题 2” +“内容 2” +……的形式，而是“标题 1” +“标题 2” +……+“内容 1” +“内容 2” +……。如果在元序列里找到连续的标题块时，就基本可以确定出现了这种情况。
如果把连续的多个标题称之为标题窗口，通过使其向后滑动，然后匹配，最终找出各个标题对因的内容元。关键是如何确定所需要的滑动步长是多少，即如何确定内容窗口。

支撑点：在一个连续的内容元序列中（其中不包括标题元），其中已经识别的内容元称为该序列的支撑点。
如果一个内容元序列，其中有一个或多个支撑点与标题窗口相对应，则该内容元序列即是需要寻找的内容窗口，当对应支撑点越多，置信度越高，如果内容元序列中没有支撑点，则该算法失效。一般的，支撑点都是那些强标识的内容元，因为它们仅依赖自身信息就可以被识别。

“标题+内容弱标识”算法：
前提：标题所对应的内容通常都在其附近，内容弱标识特性本身不能确定其的类比，但是加上附近的标题信息，其识别的置信度会大大增加。
做法：确定标题，确定识别深度（基本信息一般是 1），根据标题对应的正则表达式判断目标内容是否符合弱标识符的特征，如果符合则认为这是其内容，反之不能确定。

3）复杂信息识别

目标：不需精确识别，找到所属大类。
例如：大类是工作经验，不必要识别出其是公司描述。二级识别特别是针对所属大类不同，但文本近似的情况，例如：工作起始时间和学历起始时间。
按重要程度分：
一级字段：工作经历、教育经历、培训经历、项目经历；
二级字段：奖励、个人评价，技能技巧
识别方式：
- 1.基于正则表达式和文本位置的匹配
  过程：从标题文本的位置开始，向后搜索，并用相应的弱标识正则表达式进行匹配识别，这种“弱标识+位置”的识别方法，有较高的置信度；
  将匹配的文本标记出来，一直搜索到下一个已经识别且与该类不同的文本为止
  结果：通过已识别的文本，可以确定该文本块的一个子集，即标题文本之下，最后一个已经识别的文本之上的文本块。该子集中的文本，可以以较大概率确定是属于目标类别，其置信度与“弱标识+位置”方法置信度同。该子集的补集，则可能是属于该类别，也可能不属于该类别，本算法无法确定，即下边界无法确定问题。
- 2.特征文本标识方式
  做法：用正则表达式匹配，识别出特殊文本，然后按照匹配识别算法中所述的方法，确定子集，然后识别。
- 3.统计方式
  模型：基于向量空间模型（向量来表示文本：通过分词将文本表示为向量空间中的一个向量，由这些词作为向量的维数来表示文本）
  做法：对每一类先确定一批训练文本，通过上述方法确定每一类的特征向量；
  当有一个新文本时，也通过上述方法得到其向量，与每一类的特征向量计算夹角（余弦值），
  然后找出阈值之上的最大余弦值类，则认为新文本即是这一类。

五、回溯算法

1、描述

主要对一些丢失或未找到的基本信息进行的二次识别。

2、特点：

（1）、简历中肯定会出现或者有很大概率要出现；
（2）、该信息在文本中的位置基本确定；
（3）、该字段有区别于第一次识别的特定识别方法。

3、进行回溯的字段：

姓名：在文本的开头几行，搜索深度一般定为 5 行、借助百家姓字典以及姓名的一般长度（2 至 4 个汉字），寻找符合条件的文本
省份、城市：辅助关键字（省、市等等）

六、重点字段分析算法

1、描述

主要针对学习经历、工作经历、培训经历、项目经历进行再处理。

2、特点

包含若干子字段，并且子字段按序按块存在。

3、思想

主要采取字典的方式，从中找出感兴趣的有效信息，并按原文本中的顺序排列，进行分块，得到识别结果。

4、实现

1.信息提取：
先根据目标字段定义各类字典（如学习经历包括起止时间、学校、专业、学历），
然后根据字典提取信息，并且保留其在原文本中的书写顺序。
字典的实现是用正则表达式的方式实现
2.信息分块：
特点：
1.多个部分组成，且每个部分结构相似；
2.绝大多数情况下，都会有起止时间。

由于通过字典识别的方式，起止时间的识别率较高，且格式固定，接近 100%，
假设：假设所有文本都带有起止时间，且所有起止时间都能被准确识别。我们把有效信息序列做第一次分块；
正常简历中该类字段每个部分结构相似，所以假设每个块的顺序一致，所以检查第一个块及其附近文本，确定块内序，然后做块修正（第二次分块）

java——》解析简历

java——》解析简历

一、半格式化文本特征分析

1、内容组织——》元

2、内容结构——》项

３、项的内容——》分成两大类：基本项和复杂项

4、简历分块

5、文本内容标识性的强弱——》强标识、弱标识、无标识

6、文本的组织顺序

二、简历分块算法

1、描述

2、预计模块

3、算法实现

4、特征向量构造及夹角

三、分割算法

1、描述

2、分割算法实现

1） 规整输入文本

2） 二级分割符分类处理：

3） 按照分割符号将原文本分成若干元，存入链表

4） 修正分割结果：

四、信息处理算法

1、描述

2、信息处理算法实现

1） 预处理

2） 基本信息识别

3） 复杂信息识别

五、回溯算法

1、描述

2、特点：

3、进行回溯的字段：

六、重点字段分析算法

1、描述

2、特点

3、思想

4、实现

猜你喜欢

1）规整输入文本

2）二级分割符分类处理：

3）按照分割符号将原文本分成若干元，存入链表

4）修正分割结果：

1）预处理

2）基本信息识别

3）复杂信息识别