统计学关我什么事

贝叶斯统计的优势在于,“在数据少的情况下也可以进行推测,数据越多,推测结果越准确”,以及“对所获的信息可做出瞬时反应,自动升级推测”的学习功能。

假设一个场景:面前有一位顾客,此时你需要做的是,推测该顾客究竟是“来买东西的人”,还是“随便逛逛的人”。只有做出正确的判断,才能采取正确的接待方法。
A9A9410C-7DF0-4902-8EF8-2DCE15FA59F1

推算的第一步:将两种顾客(来买东西的顾客、随便逛逛的顾客)的比例进行数值分配。这句话的意思是:假设面前的这位顾客一定属于两种中的一种,以此为前提,该顾客为第一种或第二种的可能性分别为多少?将这个可能性用数值表示出来。

在贝叶斯统计学中,这种“某种类别的概率(比例)”有一个专有名词,叫作“先验概率”。“事前”的含义是:在获得某项信息之前。此处的“信息”是指:附加的状况,比如顾客忽然过来询问。通过“过来询问”这一信息,可以对顾客类别的推算进行修改,而“先验概率”是指,在“过来询问”或“不过来询问”的情况发生之前进行的概率判断。

通常,“先验概率”可通过经验来判断。在特殊情况下,即使没有类似经验,也可以进行判断,这部分特殊事例将在第3讲进行解说,此处暂且不做讨论。

根据自己的经验,每5位顾客中就有1位是“来买东西的”,也就是说,这一部分顾客占全体的20%(0.2),那么剩下“随便逛逛”部分的比例便为80%(0.8)。这两个数字,便是两类顾客的“先验概率”。

在这个事例中,在观察面前顾客的行为之前,判断“该顾客是属于概率0.2的买东西的人,还是概率0.8的随便逛逛的人”,这个过程被称为“某一类别的先验分布”,如图表1-1所示。

图表1-1 先验分布:分割长方形[插图]图表1-1中的大长方形被分割为两部分,两部分的面积所占比例分别为0.2和0.8,这正是分割时的诀窍。本书将在后面逐渐阐明:“面积”的概念在贝叶斯概率的计算中,起着重要的作用。

以上图示的方法为本书独创。希望各位读者将这幅图牢记于心,这样有助于在头脑中勾勒出贝叶斯统计学方法的大致雏形。

该图可以理解为:将整体分为两种不同的情况。这意味着,自己所处的环境为A或B中的一个,A情况下的顾客为“来买东西的人”,B情况下的顾客为“随便逛逛的人”,但不知道究竟是A还是B。只是先在头脑中构筑一个大致的印象。哲学上将这种见解称为“可能世界”,在进行逻辑推算或概率推算时,采用这种“划分互不相同的可能性”的思维方法,有利于整理思路。

在这里将长方形的面积设定为0.1和0.4,两部分的比例依然为1∶4,这与设定为0.2和0.8时的比例相同。那么,为何要将面积设置为0.2和0.8呢?这是因为,用数值来计算概率的情况下,需要在多种可能性中,选取“将各部分概率相加,总和为1”的那一种,这种情况被称为“标准化条件”。

在这一步,我们要做的是:为“来买东西的人”和“随便逛逛的人”这两类顾客分别设定“向店员询问”的概率。如果没有相关经验和数据作为支撑,这项工作是无法完成的。上一节讲到,即使没有相关经验,也可以设定先验概率。但此处的“各个分类的行动概率”,必须是基于一定的经验、实证、实验的数值。

图表1-2中的数值,是为了计算简便而设定的,并非真实数据。

5AFA4427-C030-4D5F-8EE3-0DC8676C765A

从图表1-2中可以看出,“来买东西的”顾客向店员询问的概率是0.9,而“随便逛逛的”顾客向店员询问的概率只有0.3。需要注意的是:图表1-2从横向来看,0.9+0.1=1,0.3+0.7=1,两行都满足标准化条件;而纵向来看,0.9+0.3≠1,也就是说并不满足标准化条件。具体分析一下:横向的一行,表示某一类别的顾客可能采取的两种行动。比如第一行数字,表示“来买东西的人”向店员“询问”或“不询问”这两种行为,顾客有可能询问,也有可能不询问,最终采取的行动一定是其中之一,没有第三种可能性。而纵向来看,第一列数字表示,“来买东西的人”向店员询问的概率为0.9,“随便逛逛的人”向店员询问的概率为0.3,两个数字相加之和并不等于1。这是因为,对象范围包含了两个不同类别的顾客,并且也没有涵盖所有的行动。图表1-2中的数字,表示“某一特定类别采取各种行动的概率”,这在高等数学中被称为“条件概率”。用“原因”的概念来解释,即“在原因明确的情况下,某一类别采取各项行动的结果概率”(第15讲中将介绍:如何用符号来表示条件概率)。

将两个类别的顾客,进一步按照“询问”和“不询问”的条件来分类,那么前文所述的两个大类别又可以细分为四个小类别,分别是:“来买东西的人询问店员”“随便逛逛的人询问店员”“来买东西的人不询问店员”“随便逛逛的人不询问店员”,如图表1-3所示。

05CF3647-9A65-4760-BA2C-295C0B864C81

一共存在四种可能性:来买东西的人询问店员(左上区域)、来买东西的人不询问店员(左下区域)、随便逛逛的人询问店员(右上区域)、随便逛逛的人不询问店员(右下区域)。概率的具体计算方法将在第10讲中具体介绍,此处对于结论先进行说明:各个区域所表示的概率与每个长方形的面积相等。长方形的面积可以用乘法求得,如图表1-4所示。

图表1-4 四种互不相同的可能性各自所对应的概率

2E5C76B8-1C97-4D3F-B9C5-13D479BFEAE5

猜你喜欢

转载自www.cnblogs.com/jeff-ideas/p/12808102.html