摘要的定义
对海量数据内容进行提炼与总结,以简洁、直观的摘要来概括用户所关注的主要内容,方便用户快速了解与浏览海量内容。
文本摘要
这篇主要讲的还是文本摘要
早期论文
Luhn. The Automatic Creation of Literature Abstracts (1958)
困难在哪
摘要撰写是一项高度智能,同时也很” 自由” 的任务
机器写摘要 vs. 专家写摘要
摘要的分类
- 单文档摘要
- 多文档摘要
- 查询相关的多文档摘要
评价指标
摘要方法的分类
抽取式方法的关键技术
经典框架
如何去衡量一个句子的重要性
句子长度
句子位置
句子中词语的TFIDF
句子是否包括线索词
句子是否与标题相似
基于单一因素的摘要方法
基于启发式规则
基于图排序
有监督的方法
这边可以稍微总结一下句子重要性计算的一些方法,如下图
整数线性规划问题
基于次模函数的方法
生成式文本摘要
几类典型做法
基于形式化语义表示
基于短语选择与拼凑
基于深度学习之序列转换模型
语义子图
文本=>语义图=>子图选择=>摘要生成
语义图: 可浅如语义角色,可深如AMR
短语拼接
文本=>多个短语=>摘要生成
不利用复杂的语义信息,化繁为简
主要步骤
短语重要性的计算
利用ILP方法进行短语选择与
拼凑构造摘要语句