NLP(3): 问答系统介绍，文本处理流程

其他 2021-02-28 16:14:03 阅读次数: 0

1、P vs NP vs NP Hard vs NP Complete

按照时间复杂度将问题分类，p是常数

多项式复杂度 O(p^n) ：不可以解决的问题，归类于NP Hard/Np Complete
1、对于小型的问题，仍然可以采用

NP: 可以在多项式复杂度内可以verify的，给定一个解，判断这个解是不是想要的。评估解的过程只需要多项式复杂度，是个判断过程。

2、approximate algorithm：不保证获得精确的解
- 提出近似算法
- 指出时间复杂度多少
- 给出近似算法最后给出的解离我们想要的最优解有多远

3、使用量子计算

指数级复杂度 O(n^p) :可以解决的问题，归类为p问题

$\approx 2^n$

2、问答系统介绍：

在这里插入图片描述

在这里插入图片描述

用户输入一个问题
计算和语料库中的常见问题的相似度
计算相似度
- 正则
- 字符串相似度
选择相似度最高的问题，输出回答

基于搜索的问答系统, 对于输入的问题

step 1 对于question的预处理

1、spell correction：拼接纠错
2、stering lennezation ，where，go，going，同义词不同时代
3、stop-words：截至词
4、words filtering：过滤掉一些特殊符号 < html >
5、同义词

step 2：做文本表示，将文本变成向量

boolean vector（0，1，1，0）
count vector（1，2，）词出现的个数
tf-idf 考虑了词频，但无法反映序列信息以及一词多义的情况
word2vec
sequence2sequence模型，直接计算出向量

做倒排索引，使得计算文本相似度的过程的时间复杂度小于O（N）

step3: 计算相似度

欧氏距离
余弦相似度
Jaccard similarity

step 4：根据相似度的排序，返回结果

选择相似度最大的question对应的answer

问答系统的核心

文本的表示
如何计算相似度

对于知识图谱的核心

实体抽取

关系抽取

3、巴普洛夫的狗

在这里插入图片描述

4、斯金纳的鼠——强化学习

在这里插入图片描述

5、文本处理的流程：

在这里插入图片描述

分词
中/英
清洗
1、无用的标签
2、特殊符号
3、停用词
4、大写转小写
标准化：把多个单词合成一个单词
apple，apples=>apple
go，went，gone，go=> go
建模：modeling
评估

猜你喜欢

转载自blog.csdn.net/weixin_51182518/article/details/113727864

NLP(3): 问答系统介绍，文本处理流程

NLP文本处理流程

NLP的文本处理

NLP项目-文本处理的流程分析

NLP——文本处理预处理

NLP（一）——文本处理

数据挖掘 NLP 之文本挖掘文本处理通用流程

shell文本处理3：sed

NLP中文短文本处理记录（一）

NLP笔记 --- 2.文本处理

04[NLP训练营]文本处理（下）

03[NLP训练营]文本处理（上）

英文文本处理（Python3实现）

网易云微专业课NLP：1.基础知识与中英文文本操作（3.中文文本处理与解析）

Python NLTK结合stanford NLP工具包进行文本处理

nlp文本处理开源工具，及聊天机器人实现

spaCy 2.2 发布，NLP 自然语言文本处理库

[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

文本处理（六）——Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai

Shell编程3_文本处理三剑客(grep)

CCF201803-3 URL映射（100分）【文本处理+暴力】

CCF201712-3 Crontab（100分）【模拟+文本处理】

CCF201703-3 Markdown（100分）【文本处理】

CCF201709-3 JSON查询（100分）【文本处理】

自然场景文本处理论文整理（3）Mask TextSpotter

python3字符串与文本处理

【Linux学习笔记28-3】Shell文本处理工具之 awk

『3-2』Linux之文本处理工具

文本处理工具介绍

linux100day（day3）--常用文本处理命令和vim文本编辑器

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)