python学习 文本特征提取(一) DictVectorizer

文章系列:

  • python学习 文本特征提取(一) DictVectorizer shuihupo

  • python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

  • python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

DictVectorizer对使用字典储存的数据进行特征提取与向量化

python3

处理字典数据

# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())

输出转化之后的特征矩阵。

[[ 1. 0. 0. 33.]
[ 0. 1. 0. 12.]
[ 0. 0. 1. 18.]]
即对源数据中无法直接计算处理的符号化文字,进行特征抽取。
对名义型变量 无法直接数字化表示,采取同逻辑回归相同的0/1虚拟编码,进行向量化;而数值型变量,维持原始值。

输出各个维度的特征含义。

[‘city=Dubai’, ‘city=London’, ‘city=San Fransisco’, ‘temperature’]

参考

网络资源及书本《python 机器学习实战——从零开始通往Kaggle竞赛之路》第三章
代码名称:Chapter_3.1.1.1.ipynb
整书百度网盘地址:https://pan.baidu.com/s/1hpVqUTngF1r7qQlGUJ720g

下篇博客预告:python学习 文本特征提取(二) CountVectorizer
ps:文章在shuihupo同时发布。

猜你喜欢

转载自blog.csdn.net/m0_37788308/article/details/80933817
今日推荐