【统计学笔记】第四章数据的概括性度量

其他 2021-03-01 10:27:48 阅读次数: 0

第四章数据的概括性度量

4.1 集中趋势的度量

4.1.1 分类数据：

众数（ $M_o：mode$ ）：一组数据中出现次数最多的变量值。

4.1.2 顺序数据：

中位数（ $M_e ：median$ ）：是一组数据排序后处于中间位置上的变量值。
- 中位数位置 $\frac{n+1}{2}$ ， $M_e= \left\{ \begin{aligned} & pos位上的值 &，n为奇数；\\ \\ & 对pos向上、向下取整\\ &的两个位置数的平均数 &，n为偶数； \end{aligned} \right.$
四分位数（ $Q_L$ ， $Q_U$ ）：一组数据排序后处于25%和75%位置上的值。
- 下四分位数（ $Q_L：quartile \ low$ ）
- 上四分位数（ $Q_U：quartile \ up$ ）
- 四分位数的位置 $p o s ：$
- 四分位数的取值：
  - 在整数位置上：就是该位置上的值；
  - 在0.5的位置上：对pos向上、向下取整的两个位置数的平均值；
  - 在0.25或0.75的位置上：对pos向下取整的数 + (对pos向上取整的数 - 对pos向下取整的数) * 0.25或0.75

4.1.3 数值型数据：

平均数（ $\bar x$ ）：
- 简单平均数：
- 加权平均数（ $M_i$ 是各组的组中值，200~250组中值就是225； $f_i$ 是各组变量值出现的频数）：
- 几何平均数（ $\ mean$ ）：主要用于计算平均比率

4.1.4 众数和中位数和平均数的比较：

左偏分布（平均数 $\bar x$ 最小，众数 $M_o$ 最大，平均数＜中位数＜众数）；
右偏分布（平均数 $\bar x$ 最大，众数 $M_o$ 最小，众数＜中位数＜平均数）；
对称分布（三者相等，众数 = 中位数 = 平均数）

4.2 离散程度的度量

4.2.1 分类数据：

异众比率（ $V_r：variation \ rate$ ）：不是众数的数占总体数据的比率
- 异众比率主要用于衡量众数对一组数据的代表性；
- 异众比率适合测度分类数据的离散程度

4.2.2 顺序数据：

四分位差（ $Q_d：quartile \ deviation$ ）：
- 四分位差反映了中间50%的数据的离散程度，数值越小说明数据越集中，数值越大说明说明数据月分散；
- 四分位差主要用于测度数据的离散程度

4.2.3 数值型数据：

自由度：样本个数-1，即 n-1；

极差（ $R ： r a n g e$ ）：一组数据的最大值和最小值之差
平均差：
标准差和方差：
1. 标准差（ $\ deviation$ ）：
2. 方差（ $s^2：varance$ ）：
相对位置的度量
1. 标准分数：变量值与其平均数的离差除以标准差以后的值。
2. 经验法则：当一组数据对称分布时，在 $\pm 3$ 个标准差之外的数据，称为离群点。
3. 切比雪夫不等式：对任何分布形态的数据都适用（非对称分布就用这个），至少有比例为 $(1-\frac{1}{k^2})$ 的数据在 $\pm k$ 个标准差内（ $k$ 是大于1的任意数）。

4.2.4 相对离散程度：

离散系数（ $v_s：coef\!ficient \ of \ variation$ ）：也称为变异系数，是一组数据的标准差和其平均数之比。

4.3 偏态与峰态的度量

4.3.1 偏态及其测度

偏态（ $s k e w n e s s$ ）：对数据分布对称性的测度；
偏态系数（ $S K$ ）：测度偏态的统计量；

在这里插入图片描述

$\begin{cases} 对称 &，SK = 0 \\ 非对称&，SK \ne 0 \begin{cases} 中等偏态分布 &，0.5<|SK| < 1\\ 高等偏态分布 &，|SK| > 1 \end{cases} \end{cases}$

$\begin{cases} 左偏（负偏）&，SK < 0 \\ 右偏（正偏）&，SK > 0 \end{cases}$

4.3.2 峰态及其测度

峰态（ $k u r t o s i s$ ）：对数据分布平峰或尖峰程度的测度
峰态系数（ $K$ ）：测度峰态的统计量

$\begin{cases} 扁平分布 &，K < 0，\\ 正态分布 &，K = 0，\\ 尖峰分布 &，K > 0； \end{cases}$

猜你喜欢

转载自blog.csdn.net/MYMarcoreus/article/details/111392733

【统计学笔记】第四章数据的概括性度量

第四章数据的概括性度量

《统计学》贾俊平第四章数据的概括性度量学习总结

统计学笔记（一）：数据概括性度量

《统计学》学习笔记之数据的概括性度量

Python统计学一数据的概括性度量

重温统计学--python实现概括性度量

数据的概括性度量

2 数据的概括性度量

R语言与数据的概括性度量

第四章，数据处理--学习笔记

数据结构笔记——第四章数组

数据挖掘概念与分析第四章笔记

数据库笔记【第四章】

数据库笔记第四章

统计学第二周&第三周打卡：数据的度量性概括及python实现

数据概括性度量：python求众数、中位数、分位数、平均数

第四章：检索数据

第四章检索数据

【译】开始学React — 一个概括性的演练教程

R语言统计入门第四章描述性统计和图形——4.5表格

《深入浅出统计学》第四章概率计算

第四章代码的可理解性

《机器学习实战》笔记--第四章：预测数值型数据：回归

「笔记」《大话数据结构》第四章：栈与队列

精通数据科学：从线性回归到深度学习（笔记）：第四章线性回归

读书笔记之《数据结构》---第四章串

数据库课堂笔记图片（三第四章）

angular4学习笔记(第四章数据绑定篇）

数据挖掘学习笔记-第四章神经网络

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)