均值
如果有一个包含 n 个值的样本 xi, 那么它们的均值 μ 就等于这些值的
总和除以值的数量, 即:
方差
均值是为了描述集中趋势, 而方差则是描述分散情况。 一组值的方差
等于:
其中
方差的平方根叫做标准差
分布
表示分布最常用的方法是直方图( histogram), 这种图用于展示各个
值出现的频数或概率。
在这里, 频数指的是数据集中一个值出现的次数, 跟声音的音高和无
线电信号的调频没有关系。 概率就是频数除以样本数量 n。
归一化之后的直方图称为 PMF( Probability Mass Function, 概率质量函数), 这个函数是值到其概率的映射
一个分布的 众 数 就是它的最频繁值
远离众数的值叫做异常值( outlier)
根据概率质量函数计算均值和方差
通过累加各个元素并除以 n 可以算出样本的均值。 对
于给定的 PMF, 也可以算出均值, 但计算过程略有不同:
其中 xi 是 PMF 中的值, pi=PMF(xi)。 同样, 也可以计算方差:
整理自《程序员数学之概率统计》