统计决策与贝叶斯推断(一)(统计决策)

20 世纪 40 年代,瓦尔德首次把损失函数引入到决策论中,提出并建立起统计决策理论,这一理论的某些观点对统计学的发展产生了一定的影响。

统计决策的基本概念

一个决策问题是由三个基本要素组成:状态集行动集损失函数。如果以 θ \theta θ 表示决策问题中的未知量,那么其所有可能状态的集合就是状态集 Θ = { θ } \Theta=\{\theta\} Θ={ θ}。行动集 A = { a } \mathcal{A}=\{a\} A={ a} 表示决策者可能采取的行动的全体。

一般而言,决策者在作决策时都会考虑后果。用以描述决策后果的函数形式有多种,例如,收益函数 Q ( θ , a ) Q(\theta,a) Q(θ,a) 描述当未知量处于状态 θ \theta θ 而决策者采取行动 a a a 时所产生的收益。当 Θ , A \Theta,\mathcal{A} Θ,A 都是有限集时,收益函数可用矩阵来表示,此时称其为收益矩阵

在决策问题中,描述决策后果除了用收益函数外,还有亏损函数、支付函数、成本函数等概念。为了统一和规范,在统计决策中可以把上数概念纳入损失函数这一概念。损失函数 L ( θ , a ) L(\theta,a) L(θ,a) 描述当未知量处于状态 θ \theta θ 而决策者采取行动 a a a 时所引起的损失。

统计决策中所说的损失可理解为“该赚而没有赚到的钱”,“不该亏而亏损的钱”或者“不该支付而支付的钱”。例如,某商店本可赚 3000 元,由于决策失误而亏了 1000 元,则就认为该商店损失了 4000 元。

如在决策问题中原先采用的是收益函数 Q ( θ , a ) Q(\theta,a) Q(θ,a),假如当未知量处于状态 θ \theta θ 时的最大收益为 max ⁡ a ∈ A Q ( θ , a ) \max_{a\in \mathcal{A}}Q(\theta,a) maxaAQ(θ,a),则采取行动 a a a 的损失可定义为
L ( θ , a ) = max ⁡ a ∈ A Q ( θ , a ) − Q ( θ , a ) L(\theta,a)=\max_{a\in \mathcal{A}}Q(\theta,a)-Q(\theta,a) L(θ,a)=aAmaxQ(θ,a)Q(θ,a)
在统计决策论中总是假定损失函数为非负函数。也就是认为,采取任何决策都会有损失,最理想的情形是损失为零。

为了更好地做出决策,还需设法获取各种有用的信息。依统计决策论的观点,对决策有用的信息有以下两类:

  1. 一是先验信息,即,人们在过去对未知量 θ \theta θ 的各种状态所获得的信息。
  2. 二是样本信息,即,通过适当的抽样调查,从抽取的样本中获得未知量 θ \theta θ 的最新信息。

大多数决策问题都要用到样本信息。如果一个决策问题中没有样本信息,那么这样的决策问题称为无数据(无样本信息)决策问题。如果一个决策问题中利用了有关的样本信息,那么这样的决策问题称为统计决策问题。如果一个决策问题中即利用了样本信息还利用了先验信息,那么这样的决策问题称为贝叶斯决策问题

常用的损失函数

线性损失函数
L ( θ , a ) = { K 0 ( θ − a ) , a ⩽ θ K 1 ( a − θ ) , a > θ L(\theta,a)=\begin{cases}K_0\left(\theta-a\right),a\leqslant\theta\\K_1\left(a-\theta\right),a>\theta\end{cases} L(θ,a)={ K0(θa),aθK1(aθ),a>θ 其中 K 0 K_0 K0 K 1 K_1 K1 是两个常数,它们的选择反映行动 a a a 低于状态 θ \theta θ 和高于状态 θ \theta θ的相对重要性。

K 0 = K 1 = 1 K_0=K_1=1 K0=K1=1,则得到绝对损失函数
L ( θ , a ) = ∣ θ − a ∣ L(\theta,a)=|\theta-a| L(θ,a)=θa

平方损失函数
L ( θ , a ) = ( θ − a ) 2 L(\theta,a)=(\theta-a)^2 L(θ,a)=(θa)2 或加权平方损失函数
L ( θ , a ) = λ ( θ ) ( θ − a ) 2 L(\theta,a)=\lambda(\theta)(\theta-a)^2 L(θ,a)=λ(θ)(θa)2

0 - 1 损失函数
L ( θ , a ) = { 0 , ∣ θ − a ∣ ⩽ ε 1 , ∣ θ − a ∣ > ε L(\theta,a)=\left.\left\{\begin{matrix}{0,}&{\mid\theta-a\mid\leqslant\varepsilon}\\{1,}&{\mid\theta-a\mid>\varepsilon}\\\end{matrix}\right.\right. L(θ,a)={ 0,1,θaεθa∣>ε

在将统计决策方法运用于实际问题时,选择合适的损失函数是需要关注的问题之一。总的原则是,选取的损失函数既要与实际问题相符又要便于数学处理。正是基于这样的考虑,在实际问题中最常用的是平方损失函数。

常用的决策准则

由样本空间 X \mathcal{X} X 到行动空间 A \mathcal{A} A 的可测映射 d ( x ) d(x) d(x) 称为决策函数。直观上,指定一个决策函数 d ( ⋅ ) d(\cdot) d() 等同于制定一个行动方案,一旦有了样本 x x x,就按既定的方案采取决策行动 d ( x ) d(x) d(x)


d ( ⋅ ) d(\cdot) d() 是一个决策函数,则损失函数 L ( θ , d ( X ) ) L(\theta,d(\boldsymbol{X})) L(θ,d(X)) 关于样本分布 F ( x ∣ θ ) F(x|\theta) F(xθ) 的数学期望
R ( θ , d ) = E X ∣ θ [ L ( θ , d ( X ) ) ] = ∫ L ( θ , d ( x ) ) d F ( x ∣ θ ) R(\theta,d)=\mathbb{E}_{X|\theta}[L(\theta,d(X))]=\int L(\theta,d(x))\mathrm{d}F(x\mid\theta) R(θ,d)=EXθ[L(θ,d(X))]=L(θ,d(x))dF(xθ) 称为决策函数的风险函数,有时也简称为风险。

由定义可知, R ( θ , d ) R(\theta,d) R(θ,d) 描述在未知量处于状态 θ \theta θ 而采取行动 d d d 时所蒙受的平均损失。


d 1 ( ⋅ ) d_1(\cdot) d1() d 2 ( ⋅ ) d_2(\cdot) d2() 是统计决策问题中的两个决策函数,若其风险函数满足不等式
R ( θ , d 1 ) ≤ R ( θ , d 2 ) ,   ∀   θ ∈ Θ R(\theta,d_1) \le R(\theta,d_2),\ \forall\ \theta\in \Theta R(θ,d1)R(θ,d2),  θΘ 且存在一些 θ \theta θ 使 R ( θ , d 1 ) < R ( θ , d 2 ) R(\theta,d_1) < R(\theta,d_2) R(θ,d1)<R(θ,d2) 成立,则称决策函数 d 1 ( ⋅ ) d_1(\cdot) d1() 一致优于决策函数 d 2 ( ⋅ ) d_2(\cdot) d2()


D = { d ( ⋅ ) } \mathcal{D}=\{d(\cdot)\} D={ d()} 表示定义在样本空间 X \mathcal{X} X 上取值于行动空间 A \mathcal{A} A 的某一决策函数类,若存在一个决策函数 d ∗ ( ⋅ ) ∈ D d^*(\cdot) \in \mathcal{D} d()D,使得对于任意 d ( ⋅ ) ∈ D d(\cdot) \in \mathcal{D} d()D 都有
R ( θ , d ∗ ) ⩽ R ( θ , d ) , ∀   θ ∈ Θ R(\theta,d^*)\leqslant R(\theta,d),\forall\ \theta\in\Theta R(θ,d)R(θ,d), θΘ 则称 d ∗ ( ⋅ ) d^*(\cdot) d() 为决策函数类 D \mathcal{D} D一致最小风险决策函数,或称为一致最优决策函数


对于一个统计决策问题,设 D = { d ( ⋅ ) } \mathcal{D}=\{d(\cdot)\} D={ d()} 表示定义在样本空间 X \mathcal{X} X 上取值于行动空间 A \mathcal{A} A 的某一决策函数类,若存在一个决策函数 d ∗ ( ⋅ ) ∈ D d^*(\cdot) \in \mathcal{D} d()D,使得
sup ⁡ θ ∈ Θ R ( θ , d ∗ ) = inf ⁡ d ∈ D { sup ⁡ θ ∈ Θ R ( θ , d ) } \sup_{\theta\in\Theta}R(\theta,d^*)=\inf_{d\in \mathcal{D}}\{\sup_{\theta\in\Theta}R(\theta,d)\} θΘsupR(θ,d)=dDinf{ θΘsupR(θ,d)} 则称 d ∗ ( ⋅ ) d^*(\cdot) d() 为决策函数类 D \mathcal{D} D最小最大决策函数,相应的风险称为最小最大风险

依照最小最大决策准则选择决策可分两步进行:

  1. 第一步,对 D \mathcal{D} D 中每个决策函数 d ( ⋅ ) d(\cdot) d() 算出其最大风险值 sup ⁡ θ ∈ Θ R ( θ , d ) \sup_{\theta\in\Theta}R(\theta,d) supθΘR(θ,d)
  2. 第二步,在所有最大风险值中选取最小值,该值对应的决策函数就是最小最大决策函数。

贝叶斯决策准则

无论是在统计决策问题还是在统计推断问题中总会包含未知量 θ \theta θ,为了对 θ \theta θ 作统计决策或者作统计推断,人们需要各种信息,其中样本信息无疑是最主要的,因为它包含 θ \theta θ 的最新信息。

然而,还有一些非样本信息也是可以用于统计决策和统计推断的,这些非样本信息主要来源于经验或历史资料,称作先验信息

统计学中有两个主要学派,经典(频率)学派与贝叶斯学派。贝叶斯学派认为,任何未知量 θ \theta θ 都可看作随机变量,应该用一个概率分布去描述 θ \theta θ 的未知状况。这个概率分布在抽样之前就已存在,它是关于 θ \theta θ 的先验信息的概率陈述,这个概率分布就称为先验分布,用 π ( θ ) \pi(\theta) π(θ) 表示。

参考文献

[1] 《应用数理统计》,施雨,西安交通大学出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/134927078