自然语言处理入门学习笔记1：从朴素贝叶斯到语言模型N-gram - 代码天地

自然语言处理入门学习笔记1：从朴素贝叶斯到语言模型N-gram

其他 2021-03-08 23:24:24 阅读次数: 0

第一章：

中文分词 jieba
关键词提取 tf-idf #tankage
正则表达式

第二章

朴素贝叶斯模型

P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
统计垃圾邮件
条件独立假设
词袋子模型
简单粗暴蠢萌，基于统计
sklearn.feature_extraction.text.countVectorizer

多项式模型：重复的词语视为出现多次
伯努利模型：重复的词语视为出现1次

在这里插入图片描述
#混合模型：混合
统计词出现次数
概率为0，数据平滑
平滑算法

实际工程问题
计算机精度问题，时间消耗问题：取对数，存hash表
转换为权重
选取topk的关键词#K值机器学习交叉验证来获取
分割样本权重
位置权重
蜜罐
在这里插入图片描述
P(X|Y)似然函数
先验概率是否需要平和

应用
1褒贬分析
工程问题：
否定词进行特别处理
相关情感词出现少则采用伯努利模型
副词对情感评价有一定影响：不很喜欢和很不喜欢
情感表达含蓄
转折性表达
2.
拼写纠错

N-gram语言模型

在这里插入图片描述
从假设性独立到联合概率链规则
联合概率链规则在实际中无法使用所以我们想办法去近似这个公式

从联合概率链规则到2-gram
拉长依赖词长度
马尔科夫假设：下面的词出现仅仅依赖于它前面的一个或几个词
n的选择
n变大的问题：
训练预料有限，容易数据稀疏
参数空间太大无法实用
在这里插入图片描述
一般选3，数据量很大可以取更大
应用：词性标注
垃圾邮件分类升级版
中文分词
机器翻译和语音识别

平滑
拉普拉斯平滑 +1 古德图灵平滑组合估计平滑
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_38616018/article/details/106725434

自然语言处理入门学习笔记1：从朴素贝叶斯到语言模型N-gram

自然语言处理（NLP）： 03 tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

通俗讲：自然语言处理（NLP）入门之N-gram语言模型。（朴素贝叶斯分类器的推导）

自然语言处理--N-gram

自然语言处理NLP中的N-gram模型

自然语言处理中的N-Gram模型

N-gram模型(自然语言处理)

自然语言处理中的N-Gram模型详解

朴素贝叶斯 & n-gram模型

斯坦福大学-自然语言处理入门笔记第六课文本分类与朴素贝叶斯

自然语言处理 - 朴素贝叶斯

2020-3-2 深度学习笔记12 - 深度学习应用 3（自然语言处理NLP - n-gram / 神经语言模型NNLM / 高维输出 / 结合 n-gram 和神经语言模型 / 神经机器翻译）

python 自然语言处理统计语言建模 - （n-gram模型）

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

《自然语言处理（哈工大关毅 64集视频）》学习笔记：第五章 n-gram语言模型

NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

人工智能自然语言处理：N-gram和TF-IDF模型详解

MATLAB算法实战应用案例精讲-【深度学习】自然语言处理模型N-Gram

人工智能-算法篇49篇-自然语言处理之N-gram模型学习

《自然语言处理宗述》英文版N-gram阅读笔记

【自然语言处理】利用朴素贝叶斯进行新闻分类（自己处理数据）

Python自然语言处理—文本分类—朴素贝叶斯

自然语言处理朴素贝叶斯新闻文本分类

中文自然语言处理--基于朴素贝叶斯的中文短文本分类

《自然语言处理入门》笔记-第1章

【Chatgpt4 教学】 NLP（自然语言处理）第十一课 n-gram模型原理

【数据分析学习笔记day26】自然语言处理NLTKPython文本分析工具NLTK 情感分析+ 文本相似度 +文本分类 +分类预测模型+朴素贝叶斯+ 实战案例+微博情感分析

自然语言生成之n-gram

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)