代码天地

python--Kmeans聚类个数k的确定方式

总结仅为个人学习使用。学习资料有‘从零开始学python’，‘跟着迪哥学python数据分析与机器学习’拐点法簇内平方和拐点法，在不同k值计算簇内离差平方和，然后通过可视化找到“拐点”所对应的k值。随着簇数量增加，簇中样本量会越来越少，导致目标函数值月腊月小。重点关注斜率的变化，当斜率突然由大变小时，且之后斜率变化缓慢，则认为突然变化的点就是寻找的目标点。# 构造自定义函数，用于绘制不同k值和对应总的簇内离差平方和的折线图def k_SSE(X, clusters): # 选择连续的K种

分类: 其他发布时间: 09-15 02:04 阅读次数: 0

excel操作（以简化操作为目标）

关于excel常用操作的简单小结，后续有积累了再补充。（没有学bva，vba处理起来应该更简单）。

分类: 其他发布时间: 09-15 02:04 阅读次数: 0

理论--降维LDA笔记

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。若数据集特征十分庞大，可能会使计算任务变得繁重，在数据特征有问题时，可能会对结果造成不利影响。因此可以用降维算法，通过某种映射方法，将原始高维空间中的数据点映射到低纬度的空间中。这里介绍LDA（有监督学习算法）。线性判别分析（Linear Discriminant Analysis,LDA），也叫作Fisher线性判别，最开始用于分类任务，但由于其对数据特征进行了降维投影，成为一种经典的降维方法。

分类: 其他发布时间: 09-15 02:03 阅读次数: 0

python--LDA线性判别分析模型

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。导入数据import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)#查看类别print(set(df['Iris-setosa']))df.columns=['sepal length','sepal width', 'petal length','petal w

分类: 其他发布时间: 09-15 02:03 阅读次数: 0

mysql语言基础（简）

mysql数据库相关小结第一篇，语言基础，上图（仅为方便学习使用）：（如果之后有完善再补充）

分类: 其他发布时间: 09-15 02:03 阅读次数: 0

mysql单表查询（简）

与前面sql必知必会的总结有重复的地方，这里权做个人总结复习。mysql数据库相关小结第二篇，单表查询涉及到的操作，上图（仅为方便学习使用）：

分类: 其他发布时间: 09-15 02:03 阅读次数: 0

mysql关联查询（简）

依旧与前面sql必知必会的总结有重复的地方，权做个人总结复习。mysql数据库相关小结第三篇，关联查询涉及到的操作，上图（仅为方便学习使用）：

分类: 其他发布时间: 09-15 02:02 阅读次数: 0

mysql其他必备知识 [事务/索引/视图...]（简）

与前面sql必知必会的总结还是有重复的地方，权做个人总结复习。mysql数据库相关小结第四篇，其他必备知识，包括内置函数、存储、视图、事务等等，上图（仅为方便学习使用）：（若有完善再补充）...

分类: 其他发布时间: 09-15 02:02 阅读次数: 0

日期转换hivesql

[转] String to Date conversion in hive - 在 Hive 中各种字符串转换成日期格式没有to_date【hive 日期函数】Hive常用日期函数整理Hive日期格式转换用法

分类: 其他发布时间: 09-15 02:02 阅读次数: 0

python小知识点 - 一句话循环

参考博客：python基础-列表推导式笔记仅做总结复习使用~python使用循环时（虽然还没使用过大的循环或嵌套循环），利用for循环写，逻辑更清晰些，但有时候循环后得到的结果要拼接到列表中，使用for循环会涉及到缩进，如果嵌套循环，缩进会更复杂些，对于循环在哪里结束就会比较迷（对我来说…），突然就体会到一句话循环（列表式推导）的便利了，总结一下下。单层、双层简单循环比如：‘Can you speak English?’要将这句话中每个单词中的大写转换为小写，使用for循环时：test=['

分类: 其他发布时间: 09-15 02:02 阅读次数: 0

python小知识点 - 一个特殊小场景计数

（仅供参考，供复习学习使用）背景是有一个表格table，统计非零值列数。abcdCount0140210363011123table['Count']=0for i in range(0,table.shape[0]): for j in range(0,table.shape[1]-1): if table[i,j]==0: table.loc[i,'Count'] += 1...

分类: 其他发布时间: 09-15 02:01 阅读次数: 0

sql-表操作尤其临时表

表操作不常用到，但应该要熟悉。新建表CREATE TABLE table1(column1 typecolumn2 type...);插入数据这里是针对一次性插入多条数据INSERT INTO table VALUES(...)(...)...;查询后的数据直接插入（比如查询字段插入新建的表）INSERT INTO tableSELECT ... ;临时表在需要查询的原表比较大，要挑选出来一些字段；或者中间需要对字段进行转化操作（如转换类型cast、截取substr、

分类: 其他发布时间: 09-15 02:01 阅读次数: 0

MySQL笔记（思维导图简）-数据库设计、SQL开发优化

对所学的一门视频课内容做的简单笔记，包括数据库设计（关系型数据库/非关系型数据库、数据库逻辑设计）、SQL开发（三种语言DCL、DDL、DML）、SQL优化。个人只熟悉DML语言（数据库小白），，针对其他模块，算是入门级了解和学习，先做个小总结。数据库设计：SQL开发： SQL优化：事务：...

分类: 其他发布时间: 09-15 02:01 阅读次数: 0

文本分析1--文本分析概述

笔记来自一门网课：玩转文本挖掘（51ct0学院），总结整理为个人做学习、复习使用，供参考。

分类: 其他发布时间: 09-15 02:01 阅读次数: 0

文本分析2-python文本数据导入操作

笔记来自课程：玩转文本挖掘（51ct0学院），总结整理为个人学习、复习使用，供参考。英文文本天生带有空格，而中文文本没有间隔，且中文同一个词在不同语境下的含义不同，中文的智能分词及分析相对难度要高。语料库在文本分词中发挥重要作用，不同的语料库有着不同设计目的，如古腾堡语料库（图书），布朗语料库（综合），路透社语料库（新闻）…(但布朗语料库支持英文，中文不适用)可以自己加工语料库，常见的语料库格式：常见语料库格式外部文件listlist of listDataFrame使用词袋模型进

分类: 其他发布时间: 09-15 02:00 阅读次数: 0

文本分析3-jieba分词

笔记来自课程：玩转文本挖掘（51ct0学院），总结整理为个人学习、复习使用，供参考。分词思想和工具也有很多，这里先只学习jeiba分词。jieba分词三种分词模式精确模式：试图将句子最精确分开，适合做文本分析(默认精确模式)全模式：把句子中所有可以成词的词语扫描出来，速度快，但不能解决歧义搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词（考虑了搜索引擎的需求，主要是为了提高搜索引擎的命中率）另外，也支持繁体分词和自定义词典基本使用import jie

分类: 其他发布时间: 09-15 02:00 阅读次数: 0

文本分析4-词频统计与词云展示

笔记来自课程：玩转文本挖掘（51ct0学院），总结整理为个人学习、复习使用，供参考。对小说第一章进行分词首先重复之前的操作，读文本数据–章节标识–选取第一章–分词读取并选取第一章import pandas as pdimport jiebaimport os#os.chdir(r'')import warningswarnings.filterwarnings('ignore')#读取文章时是一小段一小段读取的raw=pd.read_table('金庸-射雕英雄传txt精校版.t

分类: 其他发布时间: 09-15 02:00 阅读次数: 0

理论-降维PCA(主成分分析)

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。前面有进行线性判别分析的总结，LDA是有监督降维，而主成分分析是无监督降维，使用场景更多。如果以相同的思想，即投影后数据点的类间与类内距离来衡量投影效果，主成分分析由于没有标签，无法分析类间与类内距离，此时，主成分分析的思想是方差，即看哪些特征的方差更大。基本概念向量表示：图中向量可以表示为（3,2），也可以表示为线性组合其中，(1,0)和(0,1)称为二维空间中的一组基。基变换常见

分类: 其他发布时间: 09-15 01:59 阅读次数: 0

python-主成分分析实现

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。在理论的基础上，在python中实现主成分分析。使用鸢尾花数据作为例子进行。首先导入数据：import numpy as npimport pandas as pddf=pd.read_csv(r'iris.data')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid',

分类: 其他发布时间: 09-15 01:59 阅读次数: 0

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

python--Kmeans聚类个数k的确定方式

excel操作（以简化操作为目标）

理论--降维LDA笔记

python--LDA线性判别分析模型

mysql语言基础（简）

mysql单表查询（简）

mysql关联查询（简）

mysql其他必备知识 [事务/索引/视图...]（简）

日期转换hivesql

python小知识点 - 一句话循环

python小知识点 - 一个特殊小场景计数

sql-表操作尤其临时表

MySQL笔记（思维导图简）-数据库设计、SQL开发优化

文本分析1--文本分析概述

文本分析2-python文本数据导入操作

文本分析3-jieba分词

文本分析4-词频统计与词云展示

推荐系统基础入门笔记

理论-降维PCA(主成分分析)

python-主成分分析实现