深度学习时代的自然语言处理一瞥

以下是作为一个NLP小白根据自己得到的有限的经验的总结,不一定准确。

在深度学习时代,自然语言处理最大的一个变化,就是可以绕开基础特征直接进行上层应用了。过去做文本分类或者机器翻译,需要手动设计各种各样的特征,但是换成现在的端到端架构,只需要有输入文本和输出标签,模型自己就可以学习。

所以我们对于深度学习时代的自然语言处理进行归纳的时候,没有采用传统的词法、句法、语义的分类方式,而是把NLP归为了以下四类任务:

1.分类

用于分类的传统机器学习算法有很多,但是无一例外需要构造大量的人工特征。传统的机器学习算法包括支持向量机、贝叶斯分类器、逻辑回归、决策树、随机森林、boosting等等,但是鉴于现在的小孩都不会特征工程了,还是不要用了比较好。

2.序列标注

传统的序列标注方法无非就是条件随机场,而且也确实取得了很好的效果,深度学习在这类任务上的提升并不算惊艳,按理说是有必要学习一下的。但是条件随机场还是需要特征工程,而且最关键你肯定看不懂推导,所以还是不要用了比较好。

3.文本匹配

本质上是给两段文本,判断其关系的一个任务。常用的算法比如TF-IDF,BM25,LSA,LDA等等。这些方法的本质无非是提取对于文本的表征,既然涉及到表征,肯定是不如词向量的,所以还是不要用了比较好。

4.生成式任务

这一块任务在深度学习出现之前,用传统的机器学习几乎没办法做,而且直到现在也是一块难题。

上面是按所完成的任务的一个分类,我们还可以按照具体的应用分一下类:

1.情感/主题分析

本质上还是一个分类任务,只要有数据,直接送进网络里就好。

2.问答/对话

虽然大家都说生成式是未来发展的趋势,但是就现在来看还是检索式居多。所以手写规则、模板可能是免不了的。

3.推荐/检索

因为这一块内容涉及到的往往不止文本,而且也和应用场景有关,所以传统机器学习的应用还是很多。

4.复述/摘要/生成

非常典型的一个端到端的任务,只要有数据,直接送进网络里就好。

5.知识图谱

与NLP相关的部分主要是知识图谱的构建,包括实体识别、实体关系抽取、实体消歧等。构建好的知识图谱可以为推荐或者检索提供丰富的特征和信息。

6.机器翻译

也是非常典型的一个端到端的任务,只要有数据什么都好说。最近感觉已经做到瓶颈地带了。

7.机器阅读理解

根据kawhi同学的评论,机器阅读理解同知识图谱一样,也是为诸如问答之类的场景提供特征和信息的。这一块我不是很了解。

 

最后,总结一下本文想要表达的主题:统计自然语言处理中的大部分知识,在深度学习时代都已经黯然失色,但是一些最经典的传统机器学习方法还是有必要掌握的。

猜你喜欢

转载自blog.csdn.net/bonjourdeutsch/article/details/102817412
今日推荐