数据分析中的分词

编程语言 2018-05-12 23:56:36 阅读次数: 4

数据分析的其中一个步骤是对输入内容分词，内容中可能含有垃圾词或

无意义词或分词分错的，因此用停用词词典和几个正则表达式进行过滤，

之前处理的量级大约是10G这个量级，处理速度挺好。

这次增加很多数据源，处理量级上升到1T级别，这些分析处理的速度明显感觉很慢，

通过性能分析发现用正则表达式来match，判断是否是垃圾词的方式性能比较差，

如果去除这些正则，处理速度能提高一倍，试着把各个正则转换成字符串查找，

比如

\\d+(\\.\\d)?\\d*([\u4e00-\u9fa5]*[a-zA-Z]*)

用来匹配数字+中文的词，比如0.99元 5公斤等，这些逻辑简化成词包含.或包含数字和中文就认为是垃圾词，

处理精度几乎没下降，但是速度相当于去掉正则。

猜你喜欢

转载自rrsongzi-gmail-com.iteye.com/blog/1740881

数据分析中的分词

Python数据分析（4）：jieba分词详解

数据分析--R的文本分词(对天龙八部来分词看结果~)

excel中的数据分析

运营中的数据分析

Excel 中的数据分析

数据分析中异常值分析

数据分析中如何清洗数据？

数据分析中的缺失值处理

数据分析方法中的AARRR模型

数据分析报告怎么写（中）

在Excel中激活数据分析工具

数据分析在工业检测中的作用

如何学习数据分析中的Excel？

python中数据分析相关用法

数据分析中的漏斗模型

数据分析中的口径是什么？

python在大数据分析中的应用

数据分析中的mysql基础

数据分析中的mysql入门

数据分析在商业中的作用

ITSM中的大数据分析

数据分析中的mysql高级

数据分析的最后---matplotlip（更新中）

ChatGPT在数据分析中的应用

数据分析中的变量解释

数据分析方法中的杜邦分析法

数据分析中的分组分析法（二）

详解数据分析中的行为分析

数据分析中相关性分析

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)