数理统计一(概率论)

一,课题导入:
这里写图片描述
这里写图片描述

二,统计学与概率论的关系
概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质; 而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、 估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。 统计学冲锋在应用第一线,概率论提供武器

三,统计学与机器学习的关系
1、统计学习近似等于机器学习。因 为机器学习中的大多数方法来自统计学比如: 聚类、贝叶斯等等,统计学的发展促进机器学习的繁荣昌盛;当然机器学习还有 很多其他的方法,如神经网络(更小范围)、SVM。
2、区别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机 器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学 习算法在计算机上执行的效率与准确性的提升。

四,统计学的分类
1、统计可以分为:描述统计学与推断统计学
2、描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例 如:统计学生考试各个分段的人数分布等
3、推断统计学:根据样本数据推断总体数据特征。例如:产品质量检查

五,均值与中位数与众数的概念及计算
(1)均值:算术平均值,描述平均水平
u = 1 N i = 1 N X i = 1 N ( X 1 + X 2 + . . . + X N )
(2)中位数:将数字排成有序,正中间的数描述中等水平
(3)众数:数据中出现最多的数

六,均值与中位数与众数区别

均值 中位数 众数
易受极端值影响 不受极端值影响 不受极端值影响
具有唯一性 具有唯一性 具有不唯一性
是一个通过计算得到的, 不是数据中的原始数据 是一个不完全“虚拟”的数 是一组数据中的原数据
数据分布对称或接近对称时使用 数据分布偏移程度较大时应用 数据分布偏移程度较大且有明显峰值时应用

七,均值与中位数与众数关系图
这里写图片描述

八,极差、方差与标准差的概念及计算
1. 极差
(1)作用:极差值大的表示数据分散,可以用来描述离散程度
(2)计算方式:最大值-最小值
(3)举例1: A={1,2,5,8,9} B={3,4,5,6,7}
A极差值:9-1=8 B极差值:7-3=4
【缺陷】若A——1 2 5 8 9 C——1 4 5 6 9 与上例题极差值相 同所以区别不了离散程度。
2. 方差
(1)公式: σ 2 = 1 N i = 1 N ( X i u ) 2 也可以写成 σ 2 = 1 N i = 1 N X i 2 u 2
(2)性质:使用方差来描述数据的离散程度,数据越大越离散
(3)举例1:A={1,2,5,8,9} B={3,4,5,6,7}
σ A 2 = 1 5 [ ( 1 5 ) 2 + ( 2 5 ) 2 + ( 5 5 ) 2 + ( 8 5 ) 2 + ( 9 5 ) 2 ] = 10
σ A 2 = 1 5 [ ( 3 5 ) 2 + ( 4 5 ) 2 + ( 5 5 ) 2 + ( 6 5 ) 2 + ( 7 5 ) 2 ] = 2
结论:A数据分布比B数据分布更加离散
3. 标准差
(1)使用原因:由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡 量,所以常用方差开根号换算回来这就是我们要说的标准差。
(2)公式: σ = 1 N i = 1 N X i 2 u 2
(3)举例:A={1,2,5,8,9} C={1,4,5,6,9} 则
σ A = σ 2 = 10 = 3.162
σ C = σ 2 = 6.8 = 2.607

九,常见的描述性统计方法之图示技术
箱线图
(1)概念:是一种用作显示一组数据分散 情况资料的统计图。因形状如箱子而得名。 在各种领域也经常被使用,常见于品质管理。
这里写图片描述
◆ 上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
◆ 下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
◆ 四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
◆ 异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
◆ 上边缘:除异常点以外的数据中的最大值
◆ 下边缘:除异常点以外的数据中

猜你喜欢

转载自blog.csdn.net/qq_42379006/article/details/80693741