Python数据预处理 - 文本数据的量化 - 代码实现 - 代码天地

Python数据预处理 - 文本数据的量化 - 代码实现

企业开发 2018-08-30 11:01:15 阅读次数: 0

版权声明：转载请联系作者，获得允许后，添加链接及作者到页首 https://blog.csdn.net/weixin_40683253/article/details/81912027

在数据建模的过程中，很多变量都不是数字的，比如婚姻情况、性别、居住地等。这给建模本身造成了很大的干扰，因此在数据采集到数据建模的过程中，我们需要一个过程，叫量化。

比如这样一个源数据：

收入	身高	长相	体型	是否见面
一般	高	丑	胖	否
高	一般	帅	瘦	是
高	一般	帅	瘦	是
一般	一般	一般	一般	是
高	高	丑	一般	否
一般	高	帅	胖	是
低	低	一般	瘦	否

下面是量化的过程，利用到了字典：

#coding:utf-8

import numpy as np
import pandas as pd
from pandas import DataFrame,Series

#读取文件
datafile = u'E:\\pythondata\\tree.xlsx'#文件所在位置，u为防止路径中有中文名称，此处没有，可以省略
data = pd.read_excel(datafile)#datafile是excel文件，所以用read_excel,如果是csv文件则用read_csv
print(data)
#将文本中不可直接使用的文本变量替换成数字
productDict={'高':1,'一般':2,'低':3, '帅':1,  '丑':3,  '胖':3,  '瘦':1,  '是':1,  '否':0}
data['income'] = data['收入'].map(productDict)#将每一列中的数据按照字典规定的转化成数字
data['hight'] = data['身高'].map(productDict)
data['look'] = data['长相'].map(productDict)
data['shape'] = data['体型'].map(productDict)
data['is_meet'] = data['是否见面'].map(productDict)
print(data.iloc[:,5:].as_matrix())#as_matrix()矩阵化

运行结果：

[[2 1 3 3 0]
 [1 2 1 1 1]
 [1 2 1 1 1]
 [2 2 2 2 1]
 [1 1 3 2 0]
 [2 1 1 3 1]
 [3 3 2 1 0]
 [1 1 1 2 1]
 [1 1 1 1 0]
 [3 1 2 2 1]
 [1 3 1 3 1]
 [1 1 1 1 0]
 [1 1 1 2 1]
 [2 2 1 1 1]
 [1 1 1 2 1]
 [1 2 2 1 0]
 [3 1 1 2 0]
 [2 3 3 3 0]]

这是矩阵化之后的数据，便于各种建模，不需要矩阵化的话，就将最后一个print中的.as_matrix()去掉。

猜你喜欢

转载自blog.csdn.net/weixin_40683253/article/details/81912027

Python数据预处理 - 文本数据的量化 - 代码实现

mongodb中文文本数据（新闻评论）预处理代码（python+java）

Python----数据预处理代码实例

机器学习-数据预处理（Python实现）

用Python实现数据预处理

python数据处理常用代码---数据预处理

数据预处理之python实现噪声处理

Python实现数据预处理-离散值处理

数据挖掘学习——数据预处理方法代码汇总（python）

【代码模版】数据预处理类python代码模版

Python数据预处理 - 缺失值处理 - 拉格朗日插值法 - 代码实现

python学习-102-文本数据的预处理-分词

3行代码，Python数据预处理提速6倍

3行代码，Python数据预处理提速6倍！

数据预处理常用代码

Python数据预处理

python实现三种数据预处理

利用代码读取文本数据

NLP 文本预处理 Python 代码

基于Python实现的网页文本预处理

《python深度学习》学习笔记与代码实现（第六章，6.1处理文本数据）

python数据预处理练习

Python数据预处理总结

python数据预处理for knn

Python-数据预处理

Python做数据预处理

python数据预处理（入门）

python 数据预处理1

处理文本数据

caffe ssd 数据预处理代码优化

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)