python--Kmeans聚类个数k的确定方式
总结仅为个人学习使用。学习资料有‘从零开始学python’,‘跟着迪哥学python数据分析与机器学习’拐点法簇内平方和拐点法,在不同k值计算簇内离差平方和,然后通过可视化找到“拐点”所对应的k值。随着簇数量增加,簇中样本量会越来越少,导致目标函数值月腊月小。重点关注斜率的变化,当斜率突然由大变小时,且之后斜率变化缓慢,则认为突然变化的点就是寻找的目标点。# 构造自定义函数,用于绘制不同k值和对应总的簇内离差平方和的折线图def k_SSE(X, clusters): # 选择连续的K种
理论--降维LDA笔记
以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。若数据集特征十分庞大,可能会使计算任务变得繁重,在数据特征有问题时,可能会对结果造成不利影响。因此可以用降维算法,通过某种映射方法,将原始高维空间中的数据点映射到低纬度的空间中。这里介绍LDA(有监督学习算法)。线性判别分析(Linear Discriminant Analysis,LDA),也叫作Fisher线性判别,最开始用于分类任务,但由于其对数据特征进行了降维投影,成为一种经典的降维方法。
python--LDA线性判别分析模型
以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。导入数据import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)#查看类别print(set(df['Iris-setosa']))df.columns=['sepal length','sepal width', 'petal length','petal w
mysql其他必备知识 [事务/索引/视图...](简)
与前面sql必知必会的总结还是有重复的地方,权做个人总结复习。mysql数据库相关小结第四篇,其他必备知识,包括内置函数、存储、视图、事务等等,上图(仅为方便学习使用):(若有完善再补充)...
日期转换hivesql
[转] String to Date conversion in hive - 在 Hive 中各种字符串转换成日期格式没有to_date【hive 日期函数】Hive常用日期函数整理Hive日期格式转换用法
python小知识点 - 一句话循环
参考博客:python基础-列表推导式笔记仅做总结复习使用~python使用循环时(虽然还没使用过大的循环或嵌套循环),利用for循环写,逻辑更清晰些,但有时候循环后得到的结果要拼接到列表中,使用for循环会涉及到缩进,如果嵌套循环,缩进会更复杂些,对于循环在哪里结束就会比较迷(对我来说…),突然就体会到一句话循环(列表式推导)的便利了,总结一下下。单层、双层简单循环比如:‘Can you speak English?’要将这句话中每个单词中的大写转换为小写,使用for循环时:test=['
python小知识点 - 一个特殊小场景计数
(仅供参考,供复习学习使用)背景是有一个表格table,统计非零值列数。abcdCount0140210363011123table['Count']=0for i in range(0,table.shape[0]): for j in range(0,table.shape[1]-1): if table[i,j]==0: table.loc[i,'Count'] += 1...
sql-表操作尤其临时表
表操作不常用到,但应该要熟悉。新建表CREATE TABLE table1(column1 typecolumn2 type...);插入数据这里是针对一次性插入多条数据INSERT INTO table VALUES(...)(...)...;查询后的数据直接插入(比如查询字段插入新建的表)INSERT INTO tableSELECT ... ;临时表在需要查询的原表比较大,要挑选出来一些字段;或者中间需要对字段进行转化操作(如转换类型cast、截取substr、
MySQL笔记(思维导图简)-数据库设计、SQL开发优化
对所学的一门视频课内容做的简单笔记,包括数据库设计(关系型数据库/非关系型数据库、数据库逻辑设计)、SQL开发(三种语言DCL、DDL、DML)、SQL优化。个人只熟悉DML语言(数据库小白),,针对其他模块,算是入门级了解和学习 ,先做个小总结。数据库设计:SQL开发: SQL优化:事务:...
文本分析2-python文本数据导入操作
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。英文文本天生带有空格,而中文文本没有间隔,且中文同一个词在不同语境下的含义不同,中文的智能分词及分析相对难度要高。语料库在文本分词中发挥重要作用,不同的语料库有着不同设计目的,如古腾堡语料库(图书),布朗语料库(综合),路透社语料库(新闻)…(但布朗语料库支持英文,中文不适用)可以自己加工语料库,常见的语料库格式:常见语料库格式外部文件listlist of listDataFrame使用词袋模型进
文本分析3-jieba分词
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。分词思想和工具也有很多,这里先只学习jeiba分词。jieba分词三种分词模式精确模式:试图将句子最精确分开,适合做文本分析(默认精确模式)全模式:把句子中所有可以成词的词语扫描出来,速度快,但不能解决歧义搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词(考虑了搜索引擎的需求,主要是为了提高搜索引擎的命中率)另外,也支持繁体分词和自定义词典基本使用import jie
文本分析4-词频统计与词云展示
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。对小说第一章进行分词首先重复之前的操作,读文本数据–章节标识–选取第一章–分词读取并选取第一章import pandas as pdimport jiebaimport os#os.chdir(r'')import warningswarnings.filterwarnings('ignore')#读取文章时是一小段一小段读取的raw=pd.read_table('金庸-射雕英雄传txt精校版.t
推荐系统基础入门笔记
内容为“推荐系统实践”(项亮)的阅读总结,粗线条梳理只为整体有一个认识(小白级别读书笔记 [捂脸]),没有涉及书中提到的数学公式与代码,仅将个人认为有用的理论部分摘下来,供学习理解,深入理论找书本!!...
理论-降维PCA(主成分分析)
以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。前面有进行线性判别分析的总结,LDA是有监督降维,而主成分分析是无监督降维,使用场景更多。如果以相同的思想,即投影后数据点的类间与类内距离来衡量投影效果,主成分分析由于没有标签,无法分析类间与类内距离,此时,主成分分析的思想是方差,即看哪些特征的方差更大。基本概念向量表示:图中向量可以表示为(3,2),也可以表示为线性组合其中,(1,0)和(0,1)称为二维空间中的一组基。基变换常见
python-主成分分析实现
以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。在理论的基础上,在python中实现主成分分析。使用鸢尾花数据作为例子进行。首先导入数据:import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid',
周排行