python--Kmeans聚类个数k的确定方式

总结仅为个人学习使用。学习资料有‘从零开始学python’,‘跟着迪哥学python数据分析与机器学习’拐点法簇内平方和拐点法,在不同k值计算簇内离差平方和,然后通过可视化找到“拐点”所对应的k值。随着簇数量增加,簇中样本量会越来越少,导致目标函数值月腊月小。重点关注斜率的变化,当斜率突然由大变小时,且之后斜率变化缓慢,则认为突然变化的点就是寻找的目标点。# 构造自定义函数,用于绘制不同k值和对应总的簇内离差平方和的折线图def k_SSE(X, clusters): # 选择连续的K种
分类: 其他 发布时间: 09-15 02:04 阅读次数: 0

excel操作(以简化操作为目标)

关于excel常用操作的简单小结,后续有积累了再补充。(没有学bva,vba处理起来应该更简单)。
分类: 其他 发布时间: 09-15 02:04 阅读次数: 0

理论--降维LDA笔记

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。若数据集特征十分庞大,可能会使计算任务变得繁重,在数据特征有问题时,可能会对结果造成不利影响。因此可以用降维算法,通过某种映射方法,将原始高维空间中的数据点映射到低纬度的空间中。这里介绍LDA(有监督学习算法)。线性判别分析(Linear Discriminant Analysis,LDA),也叫作Fisher线性判别,最开始用于分类任务,但由于其对数据特征进行了降维投影,成为一种经典的降维方法。
分类: 其他 发布时间: 09-15 02:03 阅读次数: 0

python--LDA线性判别分析模型

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。导入数据import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)#查看类别print(set(df['Iris-setosa']))df.columns=['sepal length','sepal width', 'petal length','petal w
分类: 其他 发布时间: 09-15 02:03 阅读次数: 0

mysql语言基础(简)

mysql数据库相关小结第一篇,语言基础,上图(仅为方便学习使用):(如果之后有完善再补充)
分类: 其他 发布时间: 09-15 02:03 阅读次数: 0

mysql单表查询(简)

与前面sql必知必会的总结有重复的地方,这里权做个人总结复习。mysql数据库相关小结第二篇,单表查询涉及到的操作,上图(仅为方便学习使用):
分类: 其他 发布时间: 09-15 02:03 阅读次数: 0

mysql关联查询(简)

依旧与前面sql必知必会的总结有重复的地方,权做个人总结复习。mysql数据库相关小结第三篇,关联查询涉及到的操作,上图(仅为方便学习使用):
分类: 其他 发布时间: 09-15 02:02 阅读次数: 0

mysql其他必备知识 [事务/索引/视图...](简)

与前面sql必知必会的总结还是有重复的地方,权做个人总结复习。mysql数据库相关小结第四篇,其他必备知识,包括内置函数、存储、视图、事务等等,上图(仅为方便学习使用):(若有完善再补充)...
分类: 其他 发布时间: 09-15 02:02 阅读次数: 0

日期转换hivesql

[转] String to Date conversion in hive - 在 Hive 中各种字符串转换成日期格式没有to_date【hive 日期函数】Hive常用日期函数整理Hive日期格式转换用法
分类: 其他 发布时间: 09-15 02:02 阅读次数: 0

python小知识点 - 一句话循环

参考博客:python基础-列表推导式笔记仅做总结复习使用~python使用循环时(虽然还没使用过大的循环或嵌套循环),利用for循环写,逻辑更清晰些,但有时候循环后得到的结果要拼接到列表中,使用for循环会涉及到缩进,如果嵌套循环,缩进会更复杂些,对于循环在哪里结束就会比较迷(对我来说…),突然就体会到一句话循环(列表式推导)的便利了,总结一下下。单层、双层简单循环比如:‘Can you speak English?’要将这句话中每个单词中的大写转换为小写,使用for循环时:test=['
分类: 其他 发布时间: 09-15 02:02 阅读次数: 0

python小知识点 - 一个特殊小场景计数

(仅供参考,供复习学习使用)背景是有一个表格table,统计非零值列数。abcdCount0140210363011123table['Count']=0for i in range(0,table.shape[0]): for j in range(0,table.shape[1]-1): if table[i,j]==0: table.loc[i,'Count'] += 1...
分类: 其他 发布时间: 09-15 02:01 阅读次数: 0

sql-表操作尤其临时表

表操作不常用到,但应该要熟悉。新建表CREATE TABLE table1(column1 typecolumn2 type...);插入数据这里是针对一次性插入多条数据INSERT INTO table VALUES(...)(...)...;查询后的数据直接插入(比如查询字段插入新建的表)INSERT INTO tableSELECT ... ;临时表在需要查询的原表比较大,要挑选出来一些字段;或者中间需要对字段进行转化操作(如转换类型cast、截取substr、
分类: 其他 发布时间: 09-15 02:01 阅读次数: 0

MySQL笔记(思维导图简)-数据库设计、SQL开发优化

对所学的一门视频课内容做的简单笔记,包括数据库设计(关系型数据库/非关系型数据库、数据库逻辑设计)、SQL开发(三种语言DCL、DDL、DML)、SQL优化。个人只熟悉DML语言(数据库小白),,针对其他模块,算是入门级了解和学习 ,先做个小总结。数据库设计:SQL开发: SQL优化:事务:...
分类: 其他 发布时间: 09-15 02:01 阅读次数: 0

文本分析1--文本分析概述

笔记来自一门网课:玩转文本挖掘(51ct0学院),总结整理为个人做学习、复习使用,供参考。
分类: 其他 发布时间: 09-15 02:01 阅读次数: 0

文本分析2-python文本数据导入操作

笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。英文文本天生带有空格,而中文文本没有间隔,且中文同一个词在不同语境下的含义不同,中文的智能分词及分析相对难度要高。语料库在文本分词中发挥重要作用,不同的语料库有着不同设计目的,如古腾堡语料库(图书),布朗语料库(综合),路透社语料库(新闻)…(但布朗语料库支持英文,中文不适用)可以自己加工语料库,常见的语料库格式:常见语料库格式外部文件listlist of listDataFrame使用词袋模型进
分类: 其他 发布时间: 09-15 02:00 阅读次数: 0

文本分析3-jieba分词

笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。分词思想和工具也有很多,这里先只学习jeiba分词。jieba分词三种分词模式精确模式:试图将句子最精确分开,适合做文本分析(默认精确模式)全模式:把句子中所有可以成词的词语扫描出来,速度快,但不能解决歧义搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词(考虑了搜索引擎的需求,主要是为了提高搜索引擎的命中率)另外,也支持繁体分词和自定义词典基本使用import jie
分类: 其他 发布时间: 09-15 02:00 阅读次数: 0

文本分析4-词频统计与词云展示

笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。对小说第一章进行分词首先重复之前的操作,读文本数据–章节标识–选取第一章–分词读取并选取第一章import pandas as pdimport jiebaimport os#os.chdir(r'')import warningswarnings.filterwarnings('ignore')#读取文章时是一小段一小段读取的raw=pd.read_table('金庸-射雕英雄传txt精校版.t
分类: 其他 发布时间: 09-15 02:00 阅读次数: 0

推荐系统基础入门笔记

内容为“推荐系统实践”(项亮)的阅读总结,粗线条梳理只为整体有一个认识(小白级别读书笔记 [捂脸]),没有涉及书中提到的数学公式与代码,仅将个人认为有用的理论部分摘下来,供学习理解,深入理论找书本!!...
分类: 其他 发布时间: 09-15 02:00 阅读次数: 0

理论-降维PCA(主成分分析)

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。前面有进行线性判别分析的总结,LDA是有监督降维,而主成分分析是无监督降维,使用场景更多。如果以相同的思想,即投影后数据点的类间与类内距离来衡量投影效果,主成分分析由于没有标签,无法分析类间与类内距离,此时,主成分分析的思想是方差,即看哪些特征的方差更大。基本概念向量表示:图中向量可以表示为(3,2),也可以表示为线性组合其中,(1,0)和(0,1)称为二维空间中的一组基。基变换常见
分类: 其他 发布时间: 09-15 01:59 阅读次数: 0

python-主成分分析实现

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。在理论的基础上,在python中实现主成分分析。使用鸢尾花数据作为例子进行。首先导入数据:import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid',
分类: 其他 发布时间: 09-15 01:59 阅读次数: 0