深度学习NLP:文本情感标题分类

一、NLP是什么

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

二、NLP类别


1、文本挖掘:主要包含了文本的分类、聚类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面,这些统称为文本挖掘任务。

2、信息检索:对大规模文档进行索引。可简单对文档中的词汇,赋予不同的权重来建立索引,也可以使用算法来建立更深层的索引。查询时,首先对输入进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
3、句法语义分析:针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及句法分析、语义角色识别和多义词消歧等。
4、机器翻译:随着通信技术与互联网技术的飞速发展、信息的急剧增加以及国际联系愈加紧密,让世界上所有人都能跨越语言障碍获取信息的挑战已经超出了人类翻译的能力范围。

以上内容来自原文链接:https://blog.csdn.net/shshwhvs/article/details/126608887

三、项目过程实现

本文将是实现文本情感标题分类

环境:python3.8   tensorflow-gpu

数据格式:json

训练数据图如下

is_sarcastic代表类别{0,1}  headline为文本标题  url为文章链接,暂不需要~~~~

导入json数据,对其进行编码、padding和数据分割

搭建模型进行训练

训练结果以及预测结果

可以看到模型训练10个epoch的准确的大约75%左右,以及两个的预测标题的预测值为0.20和0.62,而实际标签"photographer says instagram couldn't handle portraits of women's pubic hair"为0,"clinton already working on follow-up book casting blame for failures of first"标签为1,均为正确。


 

猜你喜欢

转载自blog.csdn.net/qq_54575112/article/details/132067695