- 原课程来自Harvard Business Publishing Education,课程名字叫Quantitative Methods Online Course,由Janice H. Hammond制作,是哈佛大学推出的一套MBA预科课程。除了哈佛大学之外,也有一些其他的国外大学会利用这套课程作为入学前的必修内容。
- 课程带有带有音频和图片材料,介绍基础的数学和统计知识,适用于基础不强的学员。
- 课程中介绍了不少利用Excel方便计算的方法,建议不要跳过,仔细观察学会操作,可以在之后的计算中节省很多时间。课件本身比较老旧,其中介绍的Excel操作方法和操作界面为2007版,在本文中均被替换成2019版。
- 课程背景:你作为一个咨询公司的新人,和前辈一起前往夏威夷实习,为一家夏威夷的度假酒店分析数据、制定经营方针。
1. 课程结构
每个大模块里有若干个小模块。数学基础较好的同学一般可以通过20小时左右完成,基础较差的同学则通过40-50小时完成。个人建议每天学习1-2个模块,用时约1-2小时。
三个测试均为开卷考试,不限时间,可以查看自己的笔记和课程的课件,也可以上网查询资料。每个考试共有43-44个问题,大约耗时60-90分钟完成,正确率在65%以上为合格。
内容:
- 摸底考试
- Unit 1: Overview and Introduction:介绍性内容,无知识点
- Unit 2: Data Description:4个大模块
- Unit 3: Sampling and Estimation:5个大模块
- Unit 4: Hypothesis Testing:5个大模块
- Unit 5: Regression Basics:3个大模块
- Unit 6: Multiple Regression:3个大模块
- Unit 7: Decision Analysis I:4个大模块
- Unit 8: Decision Analysis II:3个大模块
- 期末测试1
- 期末测试2
考试注意事项:
- 考试是开卷考试,可以使用笔记、计算器、Excel表格,也可以查看课件、上网搜索资料。
- 考试不限时,可以做一半保存下来,下次从之前做的地方开始继续做。
- 问题并不按照章节的顺序进行排列,是乱序的。你可以根据学习的知识点随学随做,也可以把所有知识点都过完一遍后再去考试。
- 每做完一道题后,需要点击submit提交答案,提交后答案不可更改。如果不想提交,可以点击skip暂时跳过该题目,回头再做。
课程界面:
比较小、比较老旧,正常使用edge浏览器可打开,可放大展示界面。
2. Unit 2: Data Description
2.1 Describing and Summarizing Data
1)Working with Data
- 在正式分析数据前,可以先开始将数据分组、找找规律
- 将数据从高到低、从小到大排列有助于发现规律
- 通过直方图(histogram)等方式可以从视觉上帮助发现规律,展示数据的分布情况
- 出现异常值(outlier)的时候,要首先分析出现的原因:录入错误?收集数据的方式不同?收集时间不同?
- 对Outlier的处理方式取决于统计目的;大多数情况下照常保留即可,少数情况下可在仔细调查和判断数据录入错误的可能性后进行改正,千万不要随意修改数据以达到理想的结果
使用Excel制作直方图:
教程视频:How to Make a Histogram in Excel 2024 (youtube.com)
- 在表格中选中想要统计的所有数据
- 在“插入”栏点击直方图的图标
- Excel会自动生成直方图;你可以通过拖拽调整图表大小,或选择右边的画笔按钮更改直方图的颜色
- 点击直方图上的数据轴,即可修改区间大小,即箱宽(bin width)、第一个和最后一个区间的最高值等信息——这两者分别被称为下溢箱(underflow bin)和溢出箱(overflow bin)。
- 右键点击图表上的条,可以选择“添加数据标签”,在每条上方展示出现频率
*注意:这门课程中提供的Excel文档都是xls后缀的。这是一种较老的文件格式,不支持一键生成直方图。你可以把课程提供的数据复制到xlsx后缀的文档,就可以按照上述方式一键生成直方图了。
2)Central Values for Data
- 平均值(mean):符号为μ,用于衡量一组数据的中间值,但易受异常值、不规则分布的影响;适用场合:统计员工满意度
- 中位数(median):所有数据按大小依次排列后取中间值,可以避免受异常值影响;适用场合:统计前100名公司收入
- 众数(mode):数据集中出现次数最多的值,适用于数据分布的峰值不止一个的场景,如有两个峰值的双峰分布(bimodal distribution)
使用Excel获得mean:
1. 选中所有想要统计的数据
2. 使用公式AVERAGE:输入“=AVERAGE”后回车即可得出
使用Excel获得median:
1. 选中所有想要统计的数据
2. 使用公式MEDIAN:输入“=MEDIAN”后回车即可得出
使用Excel获得mode:
1. 选中所有想要统计的数据
2. 使用公式MODE:输入“=MODE”后回车即可得出;在有多个mode的情况,该公式只能求出第一个
2.2 Variability
1)The Standard Deviation
即使不同数据组可能有相同的mean,但它们的分布可能截然不同,因此在分析的时候我们需要考虑数据的分布:数据是否都贴近中心,还是比较分散?
例:汽车经销商想要选择收入9万+的社区作为目标客户,这时不能只看社区的平均收入如何,还要看看数据的分布是否都贴近9万+,还是只有少数家庭的收入超高拉高了平均值。
标准差(standard deviation):
- 符号是希腊字母sigma(σ),用于表示一组数据有多大的多样性。
- 标准差越大,就代表数据越分散,平均值的参考价值越小;标准差越小,就代表数据越集中,平均值的参考价值越大。
如何计算标准差:
- 首先计算出方差(variance):找到n个数据中每个值与平均值之间的差距,并将它们的平方全部相加,再除以n-1;标准差就是方差开根号后的结果
- 使用平方可以让我们忽略差异的正负值,将所有差异都取正,只注重差异的多少
- 标准差计算公式:
例题:旅馆需要对每周六的客户要求量有一定的概念,以此安排人员。单纯算平均值的话并不能判断这个平均值是否能够代表绝大多数日子的情况,因此我们需要计算标准差,判断绝大多数的日子的请求量在什么水平。
我们可以算出所有周请求量距离平均请求量的平方差之和 = 6372,方差为6372÷(10-1) = 637.2。
求出的方差可以给我们在数据上有一定反馈,但由于我们将所有数计算了平方,方差的单位目前是请求数的平方,不够直观。因此,我们需要将方差开根号,将单位重新调回原数据的单位,即请求数。637.2开根号的结果是25.2,因此这组数据的标准差就是25.2。
使用Excel计算方差和标准差:
1. 选中需要计算方差/标准差的数据
2. 输入计算公式:方差为=VAR,标准差为=STDEV,按回车即可计算出结果
2)The Coefficient of Variation
标准差反映了平均值的参考价值如何,但这个数据必须要放在平均值的背景下看:如果不考虑平均值多大,光对比两组数据的标准差的大小是没什么意义的。如果两组数据的标准差一样,但平均值相差很多,那对于平均值更大的那组来说,数据之间的变化就没那么大。
例:对比以下两家股票TSC和PET,虽然标准差都大概为20,但它们占平均值的比差距很大。PET的标准差占平均值的比例明显更小,因此数据间的变动也就更小。
变异系数(coefficient of variation):
- 即标准差在平均值中的占比,用来衡量一组数据之间的变动大小。
- 这个系数没有单位,可以用来比较不同类型的数据的离散程度
2.3 Applying Data Analysis
根据题目给出的数据,你应该可以用Excel轻松生成类似下图的直方图:
- 直方图的峰值靠左、尾巴靠右(skewed to the right):mean > median;这是因为尽管大多数数值都聚集在较低的位置,但少数较高的数值会拉高平均值
- 直方图的峰值靠右、尾巴靠左(skewed to the left):mean < median;这是因为尽管大多数数值都聚集在较高的位置,但少数较低的数值会拉低平均值
- 直方图的峰值在中间、左右对称:mean = median
对于这种峰值倾斜的图表来说,median比mean对于中值的体现更加客观。
2.4 Relationships Between Variables
1)Two Variables
散点图:
在有两个变量(如身高和体重)的情况下,我们可以使用散点图(scatter diagram)衡量两者之间的关系。收集的数据越多,图中体现的关系就越明显。
折线图:
我们也可以追踪一个变量(如某产品的价格)随着时间变化产生的不同,将时间设为第二个变量。这种图表被称为时间序列(time series)。
隐变量:
- 两个变量有关系并不代表一定是因果关系,要考虑到还有没有什么其他的原因可能导致出现关联,以及是否可能是巧合。
- 例:身高和体重虽然有明显的正比例关系,但并不是身高越高体重就一定越重,也并不是体重越重身高就一定越高。
- 两个变量的形成的关系可能是由于第三个其他的变量造成的,即隐变量(hidden variable)。
使用Excel制作散点图:
- 将两个变量的数据导入Excel表中。
- 选中两组数据,点击“插入”栏中的散点图标志,即可生成散点图。第一个变量会被作为X轴,第二个则会被作为Y轴。
2)Correlation
关系系数(correlation coefficient):
- 可以用来衡量两个变量之间的关系有多线性,取值范围为-1到1。
- 这个数值越大、越接近1,就代表两个变量具有越强的正线性关系;数值越小、越接近-1,则代表两个变量具有越强的负线性关系。
- 关系数值越接近0,就代表线性关系越弱;关系数值为0并不代表两个数值之间就没有关系,只是没有线性关系而已,可能有其他的关系,比如指数关系。
- 关系系数并不是唯一用来衡量关系的标准,少数outlier可能会导致关系系数大幅偏大/偏小,还是需要根据整个散点图整体查看。
散点图中的趋势:
使用Excel计算关系系数:
- 将两个变量的数据导入Excel表中。
- 使用公式"=CORREL",选中第一列数据,打出英文逗号,再选中第二列数据,按回车即可计算出关系系数。
3)Occupancy and Arrivals
根据题目给出的数据,我们可以得到类似以下的图表,展现出较强的线性关系。Excel默认第一列数据为横坐标(x),第二列数据为纵坐标(y)。
3. Sampling & Estimation
3.1 Generating Random Samples
1)How to Create a Representative and Unbiased Sample
由于人数很多,我们很难收集每个人的数据,在这种情况下我们一般会通过随机选取一小部分样本(sample)、收集他们的数据,再据此推断出整个群体的情况。
样本选取的注意事项:
数据的收集和数据的分析一样关键!有偏差的结果反而会误导我们,得不偿失。在收集的时候,我们需要考虑以下因素的影响。
1. 样本的随机性:
- 确保所有人都有同样的被选中几率才能得到有代表性的样本,如通过电脑数据库自动随机抽取样本。
- 确保你随机选择的是你正在统计的数据的样本,不要随机错了变量!
- 例:如果我们想知道今天早上的航班是否坐满,需要随机选择航班进行抽样调查,而不是随机选择乘客抽样调查。大多数乘客都来自坐满的航班,因此会导致大多数回答的结果都是已经坐满,造成结果偏差。
2. 样本的大小:
- 并不是总人数越多,样本就一定得越大。只要样本选取得足够有代表性、并达到一定大小后,无论总人数多少都能够得到比较理想的数据。
- 1000人是比较理想的样本大小。
- 样本该有多大取决于我们想要的精确程度。
3. 数据的准确性:
- 在使用问卷收集数据时,不要使用有倾向性、有歧义的问法。
- 问卷投放的渠道会影响问卷的完成率,从而影响数据的准确性。如果很多人不参加问卷,收集的结果也就不够精确——我们需要知道所有人的意见,而不是只有那些观点很强烈的人的意见。
- 例:电话访谈的时间会导致部分人群更可能收到访谈,如上班时间只能采访到留守的家庭主妇。
- 被访谈对象有可能会隐瞒或夸大事实。
4. 问卷的完成率:
- 尽可能确保选择不填写问卷的人和选择填写问卷的人的本质上没有太大区别,不要在投放问卷的时候就已经过滤掉一批人群。
- 完成率过低的问卷收集的数据通常都不太准确,所以我们宁可选的样本小点、努力追求高完成率,也不要选择的样本太大,结果完成数可能很多,但完成率很低。
- 如果完成率过低,我们可以努力促使这些不填问卷的人完成问卷,或用其他方式证明不填问卷的人的观点和填写问卷的人没什么不一样的地方。
5. 常见的抽样误差(sampling error)
- 选取样本有偏差 Unrepresentative sample
- 回复率过低 Low response rate
- 回复人群有偏差 Biased respondents
- 问法有倾向性 Biased questions
3.2 The Population Mean
1)Using Confidence Intervals
通过样本的数据,我们可以计算出样本的平均值,但我们还需要判断这个平均值到底和总数的平均值有多接近。最理想的情况是根据样本的平均值,给出一个总平均值可能存在的区间,即置信区间(confidence interval)。我们可以自主决定这个区间有多大,即我们希望对这个区间内含有总平均值的准确性有多确定。
置信区间的计算公式:
- 样本平均数 Sample mean (x̄):永远作为该区间的中心点。
- 样本标准差 Sample standard deviation (s):样本的标准差越大,代表样本平均值的代表性越低,因此置信区间就得越大才能确保可以包括到精确的总数平均值。
- 样本数 Sample size (n):样本越小,代表样本越容易被少数个别值影响,因此置信区间就得越大。
- 置信度 Confidence level (z):取决于我们希望对这个范围的精确性有多确定,越确定这个范围一定包括了正确的总平均值,这个范围就越大;如果我们对这个范围的精确性有95%的肯定,就代表精确的总平均值在这个区间的可能性是95%。
该公式的运用方法请见3.4
3.3 The Normal Distribution
正态分布指的是如下图的钟型分布。图像的中心由mean决定,宽窄由standard deviation决定。
- 很多变量的分布都遵循正态分布的规律,以mean为中值左右对称,mean = median
- X轴代表的是我们在考虑的变量的值,Y轴代表的是该变量出现的可能性
- 曲线的宽窄取决于standard deviation的大小;standard deviation越大,图像越扁平,数据越分散;standard deviation越小,图片越高,数据越聚集在mean周围
- 所有值都在某区间的可能性 = 该区间曲线下方的面积
1)Z-statistic
无论图像的mean和standard deviation是什么,只要属于正态分布,它的图像都遵循下图的规律:
Z-value:
- 其中,距离mean的standard deviation的个数被称为z,或者z-value。比如,距离mean有两个standard deviation的距离,z-value就是2。如果处在z-value为2的区间(即从μ-2σ到μ+2σ的区间),可能性就是68%。
- 通过计算出z-value,我们可以知道一个任意一个值(x)距离mean(μ)有多少个standard deviation(σ)。
- 使用z-value的时候可以抛去变量原有的单位,比如下图中变量原有的单位是inch,用于衡量身高。
累积概率(cumulative probability):
- 我们刚才探讨的概率主要是以mean作为中点、研究曲线下方面积以及所代表的百分比的,目的是知道有百分之多少的数据落在mean周围1个、2个或3个standard deviation之间。
- 而累积概率探讨的则是以左侧为起点、研究曲线下方面积以及所代表的百分比的概率,讨论的是有百分之多少数据落在某个数值以下。
- 如下图,70%的数据都在白线对应的这个数值之下,即小于这个数值。
3)Using Excel's Normal Functions
使用Excel计算累积概率:
- 在Excel中输入公式: =NORMSDIST(),并在括号中加上想要计算的数值的z-value,比如1。
- Excel会给出你一个小数,在这里是0.841345,这个小数也就是所有小于1个standard deviation所在的位置的数据所占的百分比。这也就是说,大约有84%的数据都小于1个standard deviation所对应的数据。
*公式里的S指的是standard的情况,即我们所研究的正态分布图像的mean = 0,standard deviation = 1的情况。
例题1:下图的mean是26,standard deviation是8,求小于24的值所占的比例。
方法1:
- 首先,我们需要计算出24所对应的z-value,即24距离26有多少个标准差的距离,才能利用以上的Excel公式。
- 26-24=2,而2÷8=0.25。由于24位于26的左边,因此z-value为负数-0.25
- 我们同样可以利用Excel的STANDARDIZE公式求出z-value:输入=STANDARDIZE后依次插入normal curve value(24)、mean(26)和standard deviation(8),中间以英文逗号隔开,格式如=STANDARDIZE(24,26,8)。
- 我们将-0.25代入累积概率的公式:=NORMSDIST(-0.25),得到的结果是0.401294,也就是说大概40%的值都小于24。
方法2:
- 直接使用公式=NORMDIST(),依次插入normal curve value(24)、mean(26)和standard deviation(8),最后加上“TRUE”,中间以英文逗号隔开,格式如:=NORMDIST(24,26,8,TRUE)
- 得出的答案也同样是0.401294,也就是说大概40%的值都小于24。
*注意这里的公式是NORMDIST,不是NORMSDIST,不带S。输入TRUE会显示x轴的值,输入FALSE则会显示y轴的值,但我们一般不需要y轴的值,所以记住TRUE就可以了。
例题2:从累积概率为95%反推其对应的z-value以及对应的具体数值是多少。mean = 26,standard deviation = 8。
- 利用公式NORMSINV,将0.95放入公式中,格式如下:=NORMSINV(0.95)
- 得出的结果是1.644854,就代表95%大概位于1.64个standard deviation的位置,z-value为1.64。
- 利用公式NORMINV,依次输入cumulative probability(0.95),mean(26)和standard deviation(8),中间以英文逗号隔开,格式如下:=NORMINV(0.95,26,8)。
- 得出的结果是39.15883,也就代表95%处的这个值大约是39.2
4)Z-table
例题1:下图是女性身高的数据分布,mean = 63.5 inches, standard deviation = 2.5 inches,求身高低于65.6 inches的女性的比例。
- 求出z-value:65.6-63.5=2.1,2.1÷2.5=0.84
- 在z-table中找到0.8和0.04重叠的格子,格子里的值是0.7995,也就是说z-value是0.84的时候对应的比例是79.95%,将近80%。
- 结论:将近80%的女性身高低于65.5 inches。
例题2:同样一张图,求身高低于61.6 inches的女性的比例。
- 求出z-value:63.5-61.6=1.9,1.9÷2.5=0.76,由于61.5小于mean,因此z-value为负数-0.76
- 在z-table中找出对应+0.76的值,即0.7和0.06重叠的格子,格子里的值是0.7764,也就是说z-value是+0.76的时候对应的比例是77.64%。
- 由于图像对称,-0.76所对应的值相当于100%-77.64%的面积,即22.36%。
- 结论:22.36%的女性身高低于61.6 inches。
5)The Central Limit Theorem
中心极限定理(Central Limit Theorem):
- 在实际运用中,其实我们并不能确保我们的数据是否是正态分布的,也不能确定总数的平均值是多少。
- 但中心极限定理证明,只要抽样的次数足够多,各个样本的mean就会累积成为一个正态分布的图像(Distribution of the Sample Means),且这个图像的mean等于总人数的mean。
- 实际统计中,我们很难进行多次抽样,通常只会抽样一次,但我们可以确定这一次抽样出来的mean肯定坐落在一个正态分布的图像上,这可以让我们无视原数值的分布是否规律。
- 由于正态分布的图像比较规律,我们可以利用这些规律得到更多的信息。
3.4 Confidence Intervals
1)Estimating a Population Mean II
根据中心极限定理和正态分布的特征,我们可以确定如果样本数量足够大(达到30个以上),那么样本的mean就有95%的可能性会落在距离总人数mean的2个standard deviation中间,5%的可能落在距离总人数mean的2个standard deviation之外。
- 如左图:如果样本的mean位于总人数mean的两个standard deviation之外,那么以两个standard deviation作为confidence interval的话是无法包括到真正的总人数mean的,但这种情况只有5%的概率可能发生。
- 如右图:如果样本的mean位于总人数mean的两个standard deviation之内,那么以两个standard deviation作为confidence interval的话就绝对可以包括到真正的总人数mean。这种情况有95%的概率可能发生。
当我们将confidence level设置成95%的时候,代表我们期望95%的结果中包含真正的总人数mean。如果我们想要更精确的结果,就要么扩大confidence level、要么扩大sample的大小。
如果同一个confidence interval中不同的数值会引起我们做出不同的决策,就代表这个interval太宽了。
总人数&所有样本数的standard deviation计算公式:
n = 样本人数(sample size)
抽取的样本的人数越多(n越大),下方的图像就会越高,越向mean靠拢。
2)Finding a Confidence Interval
如何建立&计算confidence interval:
- 采用一个至少包括30个数据的样本,计算出这个样本的mean和standard deviation
- 将样本的mean作为confidence interval的中心点
- 设定confidence interval的宽度;如果选取95%的可能性,就把z = 2代入以下的公式
- 由于我们不知道总人数的standard deviation是多少,我们在此用样本的standard deviation代入计算,即可算出confidence interval
例题:为杂志判断订阅者的平均年龄,要求95%的情况结果会包括总人数的平均年龄。样本数 = 60,样本平均数 = 52,样本标准差 = 40。
- 将以上信息代入公式,同时将95%对应的z-value取1.96
- 使用计算器或Excel进行计算;Excel中开根号的公式为=SQRT
- 最终得出的结果大概是41.88~62.12,也就代表95%的情况这个区间内包括真实的平均数
3)Obtaining the z-value
如果想要达到非95%这种比较常见和规律的可能性,想要达到别的可能性,可以通过以下办法计算出这种可能性对应的z-value。
假设我们想知道98%对应的z-value:
- 98%中间覆盖的面积,这就代表两端必须各自剩下1%,右侧尽头达到99%
- 然后,我们就可以使用这99%的cumulative probability代入Excel的NORMSINV公式,或使用z-table得到对应的z-value,约为2.326348。
- 因此,98%的可能性对应的z-value大约为2.33。
4)Using small samples
注意:以上方法和公式仅适用于样本人数大于等于30个的情况。
- 如果不够30个,Central Limit Theorem就不适用,因此无法保证样本的mean会遵循normal distribution。
- 同样,我们也难以认为样本的standard deviation能够和总数的足够接近。
- 如果总数的分布近似于正态分布(确认不是bimodal或skewed的情况),那我们就可以设定一个confidence interval;但如果不近似正态分布,则不可以。
T-distribution:
- 适用于样本数小于30个的情况
- 比正态分布更扁平,数据离mean更分散,因此不适用于正态分布的规律,也不适用于z-value,而是用t-value取代
- Standard deviation的长度比正态分布更长,因此不确定性也更大
- 不同的样本数对应不同的t-distribution;样本数越多,曲线就越高、越往中心聚集、越近似正态分布的曲线
如何找到样本对应的t-value:
- 首先通过样本数-1,计算出degree of freedom(degree of freedom = n-1)
- 通过Excel的公式TINV可计算出理想的confidence level所对应的t-value:输入=TINV(1-confidence level的百分比, degree of freedom)
- 例:95%的confidence interva和n = 16的sample size的公式应该是:TINV(0.05,15) ,得到的结果是2.13145.
得到t-value之后,我们可以把它代入之前的公式中,取代z-value计算出confidence interval。
5)Choosing a sample size
我们在实际运用中经常会希望控制confidence interval的大小,比如研究价格时希望两边延伸的范围d在$50以内。
为了确保可以成功控制这个值,我们需要对standar deviation(σ)进行一定的预测:可以根据过去的经验数据预判,或者现行做个调查衡量一下大概的值。
例题:根据过去的经验,standard deviation大约是$300,d ≤ $50,要求95%的肯定度。
代入以下公式,可以发现至少要保证样本人数n ≥ 139,才能保证 d ≤$50。
利用课件中提供的Excel表格可以快速计算出这些值,或者采用谷歌搜索“confidence interval calculator”等关键词找到一些在线的自动计算器:Confidence Interval Calculator
3.5 Proportions
1)Confidence Intervals And Proportions
尽管我们在统计结果中可能只有yes/no两个答案,但我们不确定多少人可能会回复我们的调查。
我们将回复yes的人数占总回复人数的比设为p-bar。这个数值可以用来估测所有人群中真正可能回复yes的人占的比例,但也仅仅是估测。
通过和以上类似的方法,我们可以计算出比例的confidence interval,帮助我们知道p-bar和真实的比值之间差多少。
样本大小:
如果本身某人群在所有人中占比就极其低,就需要确保样本足够大,能够包括一部分这类人群,否则统计结果无法被用来推断出真实情况。
样本大小必须符合以下公式:
为了确保得到合适的样本大小,我们可以:
- 参考历史统计数据,推断出大致的比例
- 事先选择一小部分人群进行统计
我们可以利用Excel课件的Proportion少部分计算这类的题目。
4. Unit 4: Hypothesis Testing
4.1 Definition
假设检验(hypothesis test):
通过数据的收集和分析判断我们事先做出的假设是否正确。
例:某商品的历史不合格率为3/1000,我们假设换了新机器后会影响不合格率,结果抽样的结果是2.7/1000。商品的不合格率是否有影响,取决于3周围总数mean的置信区间大小。如果2.7仍被包括在这个区间中,则无法证明有影响。如果2.7超出了这个范围,则可以证明有影响。
零假设 Null hypothesis
基于历史经验进行假设,认为目前的不合格率和历史不合格率一样,即目前的mean = 参照的mean。参照mean用符号μ代替,样本mean用x̄代替。
非零假设 Alternative hypothesis
和零假设相反,认为目前的不合格率和历史不合格率不一样,即目前的mean ≠ 参照的mean。
如果我们做出了某种改变,我们当然会希望这种改变会带来不一样的合格率,因此希望这个假设是成立的。
虽然我们真正想证实的其实是alternative hypothesis的内容,但我们只会测试null hypothesis是否成立。而测试的结果只有:reject和not reject。而reject null hypothesis也就相当于接受alternative hypothesis。
- 如果从样本mean(x̄)推断出的总数mean跟μ相差很大(比如14/1000),导致μ不可能是总数mean,就可以reject null hypothesis。
- 如果从样本mean(x̄)推断出的总数mean跟μ相差不大(比如3.05/1000),μ可能是总数mean,就不能reject null hypothesis。
- 但注意,不reject并不代表接受。我们并不能accept null hypothesis,我们实际上也没法确定μ到底是不是总数mean。
4.2 Single Population Means
1)Range of Likely Sample Mean
例题:电影院想判断更换放映电影类型后客户的满意度是否改变。更换前客户的平均满意度是6.7/10,更换后抽样196人后得出的结果是7.3/10,standard deviaion为2.8。
- null hypothesis:总平均满意度没有改变,仍然是6.7,我们只是恰好抽到了一个满意度偏高的样本罢了。
- alternative hypothesis:总平均满意度改变了,不是6.7了,这也是我们更希望证实的结果。
我们假设null hypothesis为真,将确定性设置为95%,以6.7为中心建立一个范围。根据central limit theorem,样本mean的分布遵循正态分布,图像的standard deviation(σ)可以取近似值,即可以认为样本的standard deviation (s) ≈ 2.8,并代入公式计算出这个区间的范围。这代表如果null hypothesis为真,总平均满意度不变的话,95%的样本mean都应该落在这个范围之内。
根据以下Likely Sample Mean的范围计算公式,我们可以算出如果总数mean = 6.7,这意味着95%的样本都应该位于6.3~7.1的范围。但我们实际取得的样本7.3不处于这个范围,因此我们可以reject null hypothesis,同时接受alternative hypothesis,即总数mean μ ≠ 6.7,总平均满意度发生了变化。
超出95%的区域被称为拒绝域(rejection region),包括小于6.3和大于7.1的所有值,包括7.3。既然x̄落在拒绝域了,当然就应该拒绝null hypothesis。
当然,这个方法并不是万无一失的,因为我们采用的95%的置信区间,总有偏巧选到了比较极端的样本、导致我们对总数判断失误的可能。我们错误地reject掉为真的null hypothesis的可能性是5%,即null hypothesis为真的情况下样本mean恰好落在了rejection region的时候。这也被称之为5% significant level。
Significant level = 1 - Confidence level = 1 - 95% = 5%
如果我们将confidence level扩大到99%,reject region就会缩小到1%。这会减小null hypothesis为真但却被reject的错误发生的可能性,但会同时增大null hypothesis为假却没有被reject的错误发生的可能性。
我们需要在这两者之间做出权衡:
- 如果你更需要确保mean没变的时候不会被错以为变了,例如mean改变造成的负面影响更大,我们更希望它没变,更希望不要错过任何一点mean没变的机会,就把confidence interval调大一点。
- 如果你更需要确保mean变了后不会被错以为没变,例如mean不变造成的负面影响更大,我们更希望它变了,更希望不要错过任何一点mean变了的机会,就把confidence level调小一点。
2)One-Sided Hypothesis Test
双侧假设检验(two-sided hypothesis test):
我们刚才学习的检验方法是双侧假设检验,并不会预判我们在研究的这个值的变化到底是增大还是减少,这点可以反映在左右两侧都包含rejection region中。
在这种情况,null hypothesis设定mean = μ,alternative hypothesis设定mean ≠ μ。
单侧假设检验(one-sided hypothesis test):
但如果我们足够确定某个值只可能往一个方向变化,我们就只用考虑这一个方向。
比如,在刚才影院的例子里,如果我们足够确定观众的满意度只可能增加、不可能减少,那我们需要验证的假设就不仅仅是“满意度变了”,而是“满意度明显比6.7高了”。在这种情况,null hypothesis设定6.7 ≥ μ(代表满意度没有变高,μ即目前的总数mean),alternative hypothesis设定6.7 < μ(代表满意度确实变高了)。
反之,如果想证明“满意度明显比6.7低了”,null hypothesis就应该设定6.7 ≤ μ(代表满意度没有变低),alternative hypothesis设定6.7 > μ(代表满意度变低了)。
同样回归刚才的例题。如果影院想要做one-sided hypothesis验证观众满意度是否增长,就应该从图像的最左侧开始取95%的confidence level,并计算出图像的上界(upper bound),即选取哪个值才能确保95%的样本mean都小于它。
在计算这个值的时候,我们会用到cumulative probability,通过excel或z-table得出95%所对应的z value是1.645。注意,虽然都是95%,但此处的z value和之前学到的two sided test中的z value是不同的。这是因为two sided的时候,z value所对应的上界的位置实际上是cumulative probability为97.5%(95% + 2.5%)的位置。
通过基本同样的公式(但±符号换为+),我们可以计算出如果null hypothesis为真,即μ没有增大的情况下upper bound的值为7.0。任何大于7.0的值都会落在rejection region,包括7.3,因此我们可以reject null hypothesis,接受alternative hypothesis,即观众的满意度的确增长了。
相反,如果我们要求的是是否减少,就应该计算出下界(lower bound)的值,将公式中的±符号换为-,并用1-confidence level找到对应的值,如1-95%=5%,然后找到5%所对应的z-value。
课件中提供了可以用来方便计算的Excel表格可供下载,可以代入上面例题的数据熟悉一下使用方法。也可以使用一些在线计算器,比如:Hypothesis Test Calculator | 365 Data Science
4.3 Single Population Proportions
1)Hypothesis Tests for Single Population Proportions
以上介绍的是测试总数mean的方法,下面介绍的则是测试总数比例的方法,跟测试总数mean的方法很相似。取代总数mean(μ)的是字母p,代表population proportion.
Two-sided hypothesis:
- Null hypothesis:总数比例p不变
- Alternative hypothesis:总数比例p改变
One-sided hypothesis:
- Null hypothesis:总数比例p增大/减小
- Alternative hypothesis:总数比例p没有增大/没有减小
我们需要收集的数据:
- 我们希望的confidence level,如95%、99%
- 样本比例(p bar)
- 总数的standard deviation(σ),通过以下公式计算:
区间计算公式:
- 如果样本比例(p bar)位于该区间内,则无法reject null hypothesis。
- 如果样本比例不位于该区间内,则可以reject null hypothesis,并接受alternative hypothesis。
例题:我们需要调查餐馆的好评率是否提升,历史好评率为72%。样本数为126人,样本好评率为81%,置信区间为95%。
One-sided hypothesis test:
- Null hypothesis:好评率没有提升, p ≤ 0.72
- Alternative hypothesis: 好评率提升了,p > 0.72
首先通过公式计算standard deviation:
σ = √(p(1-p)) = √(0.72(1-0.72)) ≈ 0.45
然后代入求上界的范围公式:
range = p+z√(σ/n) = 0.72 + 1.645 * √(0.45/126) ≈ 0.78
0.78 > 0.72,位于rejection region,因此应该reject null hypothesis,并接受alternative hypothesis,即我们可以95%确定好评率有提升。
4.4 P-Values
所有我们刚才学到的测试都只测试是否reject,但并不衡量我们的证据有多强。接下来的这个方法会通过p-value衡量我们证据的强度,衡量样本mean出现在图像上不同位置的可能性。
我们之前提到过Significance Level:
Significance Level = 1 - Confidence Level,如confidence level = 95%,significant level = 5%
p-value其实也就相当于significance level,同时也是曲线下方的面积大小。如p-value低于5%,就reject null hypothesis,但reject的强度不同。p-value的数值越小,我们reject的证据就越强。
计算p-value:
例题:回到之前影院的例子。电影院想判断更换放映电影类型后客户的满意度是否改变。更换前客户的平均满意度是6.7/10,更换后抽样196人后得出的结果是7.3/10,standard deviaion为2.8。
由于样本mean = 7.3,超过了6.3~7.1的区间,我们应该reject μ = 6.7的null hypothesis,但我们不知道reject的强度如何。下面我们就来计算一下7.3所对应的p-value。
计算p-value时会同时考虑左右两侧的情况,找到左侧和7.3对称的点,即6.1,然后计算所有大于7.3和小于6.1的面积的大小。
按照以下公式计算出7.3所对应的z-value,得到的结果是3,就代表7.3对应的z-value为3,6.1对应的是-3。
*这里的z-value公式和之前介绍的不太一样,课件中并没有解释原因,个人猜测这属于超纲知识,不一定需要理解原因,记住公式即可。
个人猜测,之前的公式适用于任何正态分布的图像,但需要确保公式中的standard deviation是对应该图像的标准差。但这里的公式则计算的是sample mean的情况,即理想中抽取了N个样本之后,所有样本的mean的分布情况。题目中给我们的2.8是抽取的这个样本的标准差(s),不是sample mean分布图的标准差,因此没有办法直接把2.8代入公式去做,需要先求出sample mean分布图的标准差。
由于我们无法真正知道population standard deviation(σ),也就无法用σ/√n求出sample mean的standard deviation,但因为sample mean的图像呈正态分布时s和σ比较近似,可以用s代替σ,算出s/√n作为sample mean分布图的标准差。
具体知识点可以参考3.3、3.4进行复习。
通过Excel的公式=NORMSDIST(-3),可以计算出两边曲线下的面积各自为0.00135左右,加起来是0.0027。这个值也就是p-value。
当p-value低于significance value,就应该reject null hypothesis。p-value越小,reject的强度也就越强。当p-value为0.0027的时候,我们有99.73%(= 1 - 0.0027)的信心可以否定null hypothesis的正确性。
One-sided hypothesis的情况同理,但只需要计算一侧曲线下的面积。
教案提供的Excel表格也提供了计算p-value及其对应的z-value的功能:
4.5 Comparing Two Populations
1)Hypothesis Tests for Two Population Mean
Single Population Test:
用于研究目前的情况和历史情况是否存在不同。
Two Population Test:
用于对比两组人群、产品的情况,分别用两组的样本数(n)、样本mean(x bar)和样本标准差(s)进行计算。这时我们设定null hypothesis中两组总数的mean(μ)是一样的,即μ1 = μ2,alternative hypothesis则设定μ1 ≠ μ2。
即使样本数大小不一样,也并不会对计算造成影响。
例题:公司甲想研究一下到底是自己的GMAT复习资料还是竞品公司乙的资料对学习更有用,于是根据用户的GMAT成绩统计出两组数据,置信区间选为95%:
根据题意,我们应该建立如下的null hypothesis:假定两个公司的所有用户的平均GMAT成绩是一致的,样本平均成绩的不一致只是抽样造成的巧合。
μ1和μ2相差得越大,这个null hypothesis为真的可能性也就越低。为了衡量这个可能性,我们需要计算出p value。这时我们用到的z value公式也跟之前的有所不同。在假定μ1=μ2的情况下,μ1-μ2=0。
找到z value所对应的p value之后,再用这个p value和significance level进行对比。如果p value小于significance level,就代表可以拒绝null hypothesis,反之则不能拒绝。
我们也可以利用课件中的Excel表格辅助计算。
2)Hypothesis Tests for Two Population Proportions
在比较两组的比例(p)的时候,我们设定null hypothesis为p1 = p2,alternative hypothesis为p1 ≠ p2。
- 通过√[p*(1 - p)]的公式求得population standard deviation。
- z value的计算公式又有不同:
- 最终得出结果,计算出的z value所对应的p value大于significance level,则无法拒绝null hypothesis,小于significance则可以拒绝。
例题:比较德克萨斯和俄克拉荷马两个州的喜欢薯片的人的比例是否有不同,置信区间选为95%,收集到的数据如下。
代入z value的公式进行计算后,得到z = 2.48,左右两边加起来转换成的p value是0.013,小于significance level 0.05,因此reject null hypothesis,证明德州和俄州喜欢薯片的人的比例的确有所不同。
可以参考Excel课件辅助计算,或者用一些在线网站,如:Two Population Calculator with Steps - Stats Solver
以上介绍的都是two sided test的情况,但one sided test其实也同理,只不过我们首先会在alternative hypothesis中预判μ1和μ2哪个更大,并在null hypothesis中涵盖反向的可能。
5. Unite 5: Regression Basics
5.1 Introduction
1)Regression Line
回归分析(Regression analysis)可以用于帮助我们进一步理解两个变量之间的关系,了解关系的结构。
例题:肉制品公司想要研究销量和广告之间的影响。
通过题目给出的近10年数据,我们可以在excel中生成散点图(类似下图),视觉上可以看出销量和广告这两个变量存在线性的关系。使用公式=CORREL,我们可以得出这两组数据的关系系数约为0.93,比较接近1,证明两者存在较强的线性关系。
如果想在散点图上画一条直线代表两组数据间的关系,最能够代表这两组数据之间关系的线叫做回归线(regression line)。这条线可以用y = a + bx代表,其中a是y轴交点,b是斜率。
x轴是自变量(independent variable)或解释变量(explanatory variable),是我们认为变化产生的原因,y轴是因变量(dependent variable),是我们认为受到x的影响产生变化的变量。因此,在这里我们应该选择销量作为因变量(y)、广告作为自变量(x)进行做图,因为销量受到广告的影响。
当两个变量成比变化的时候,回归分析可以用来总结这种变化的规律。
2)The Uses of Regression
回归可以用于预测未来的变化趋势,以及更好地了解两个变量之间关系的结构。
预测:
- 相比仅仅通过某一个过去值进行参考和推断,使用回归线会参考所有过去的数据进行分析,结果更可靠、更全面。
- 但预测的结果仅适用于历史存在数据的区间范围内,超出这个范围的预测结果的准确性就差很多了,而且超出的越多越不准确。
- 注意:我们利用历史数据进行预测的时候其实是在默认历史的经济情况、行业情况、竞争情况和现今相似。如果历史情况和现在情况相差较大,则不适用。
结构:
- 系数a(即此处的-333,831)没有什么实际参考价值,仅代表y轴交点的位置。
- 系数b(即此处的50)更有参考价值,是回归线的斜率,代表了销量因为广告而变化的平均程度,即大概增长广告额度的50倍。
5.2 Calculating the Regression Line
1)The Accuracy of a Line
实际数据的波动并不是一条直线,就像广告并不完全决定销量一样,销量的变动还会受到其他问题或巧合的影响。
我们用每个点与回归线的竖直距离(注意不是垂直距离)计算回归线的精确度。这可以帮助我们理解回归线对于历史数据的表现有多精确。这个竖直距离被称为误差(error)。x值对应的回归线上y值(预测值)被称为y hat,实际的y值被称为y,error就是两者之差。
回归线整体的精确性可以由所有error的平方之和得出,类似方差的计算方法,这可以避免有正有负的距离差值互相抵消。这个值被叫做误差平方和(Sum of Squared Errors),缩写为SSE,越大就代表回归线越不准确。
2)Identifying the Regression Line
既然回归线的定义是最能表现这组数据的线,那也就意味着它是误差平方和最小的线。
在Excel中生成回归线:
教程视频:How to do a linear regression on excel (youtube.com)
- 选中两列数据生成散点图
- 选中散点图,进入“图表工具”栏,选中“图表设计”。
- 此时,页面左上角的第一个按钮是“添加图表元素”,点击该按钮,并在下拉菜单中选择“趋势线”。由于回归线是线性的,在右侧的选项中选择“线性”。
- 系统会自动生成回归线。我们可以双击选中这条线,在右侧弹出的设置趋势线格式栏中选择“显示公式”,即可得出回归线的公式。
- 我们可以选中横纵坐标的标签,调整标签最小值的大小,便于数据的展示。
在Excel中生成回归分析表:
- 在你的Excel中安装数据分析工具(Data Analysis),步骤参考:如何在Excel 2019中开启数据分析工具?-CSDN博客
- 在顶部栏选中“数据”,点击最右侧的“数据分析”。
- 在弹出的界面选择“回归”,并单击确定。
- 分别选中X轴和Y轴所对应的数据填写到“X轴输入区域”和“Y轴输入区域”。如果你同时涵盖了表头,则勾选“标志”选项,否则不勾选。
- Excel会自动根据这些数据生成一个完整的回归分析表格。
5.3 Deeper into Regression
1)Quantifying the Predictive Power of Regression
想要衡量历史广告数据对于销量的预测效果,首先我们可以判断一下只有历史销量数据的预测效果,即所有历史销量数据的平均值,沿着平均值做一条与x轴平行的直线。
然后,我们可以研究一下回归线的预测比这条mean line精确多少,计算出mean line的误差平方和,对比两条线误差平方和的大小。Mean line的误差平方和被称为总平方和(Total Sum of Squares)。
其中,回归线的误差平方和又叫残差平方和(Residual Sum of Squares),是回归线所不能解释的变量。而能被解释的部分,则叫做回归平方和(Regression Sum of Squares),这两者加在一起共同组成总平方和。
在Excel生成的回归分析报告的SS项中:
- 回归分析 = 回归平方和(Regression Sum of Squares)
- 残差 = 残差平方和(Residual Sum of Squares)
- 总计 = 总平方和(Total Sum of Squares)
决定系数(R-squared):
用于表示所有变量中回归线代表的部分的比例,其大小总介于0-1之间。0和1分别代表两个极端:回归线完全不能代表任何变量 vs 回归线完全能代表所有变量。反之,我们也可以先计算出回归线不能代表的部分的比例,然后用1减去这个数字,得到R²。
Excel的回归分析报告中也包括R²。在生成散点图时,也可以选中回归线,并在右侧弹出的设置趋势线格式栏底部勾选“显示R平方值”。
决定系数&关系系数之间的关系:
如斜率为正,则取正号;如斜率为负,则取负号。
Excel的回归分析报告中也包括未取正负之前的R,被列为“Multiple R”。
残差图(residual plot):
误差又被叫做残差(residuals)。为了验证两个变量是否存在线性关系,我们需要将每个点的残差测算出来,换转成以残差为y轴的残差图。
如果残差图的图像中可以看出明显的曲线,如下图,就可以证明实际上xy两个变量的关系并不是很线性,更适合用曲线表达。
这可能是因为:1)还有其他变量在影响y值,或者2)两者的关系就压根不是线性的。
如果xy两变量的关系是线性的话,残差图中点的分布应该是比较无规律的,如下图。而这实际上应该形成正态分布,以0为mean,方差相同,具有同方差性(homoskedasticity)。
而如果方差不一致,残差图中分散的距离以及方差越来越大,对应散点图中y值越高偏离回归线越大,就会展现出异方差性(heteroskedasticity)。
利用Excel生成残差图:
- 在Excel顶部选择“数据”,点击页面最右侧的“数据分析”按钮。(注意:你需要提前开启数据分析工具才会有这个按钮)
- 在弹出的窗口选择“回归”,并点击确定。
- 分别在表格中选中“X值对应区域”和“Y值对应区域”进行录入。如果包括了表头,即勾选“标志”,否则不要勾选。
- 在同一窗口下方的“残差”栏,勾选“残差图”,点击确定。
- 系统会自动生成回归分析表格 + 残差图。
2)The Significance of Regression Coefficients
总数的系数:
由于通常我们只能用有限的样本数据生成回归分析,所以生成的回归线也仅仅是样本的回归线,不能完全代表总数的情况,只能用于推断总数的情况。
我们使用希腊字母代表总数各个系数:
- 总数标准差:σ——用样本标准差s预测
- 总数回归线y轴交点:α——用样本回归线y轴交点a预测
- 总数回归线斜率:β——用样本斜率b预测
在Excel的回归报告中,会默认以95%的置信区间预测α和β两个值的区间,比如下图中样本的x variable(即斜率)的值是0.018072,它就是置信区间的中心,区间大小为0.008101~0.028043,我们有95%的信心真实的β值就位于这个区间之内。
如果我们想要别的大小的置信区间,可以在回归分析的设定界面进行设置,勾选“置信度”即可改变置信区间的大小。
验证总数的分布是否线性:
- 方法1:查看总数的斜率β的置信区间是否包括0。如果不包括的话,我们就有95%(或我们设定的置信区间的大小)的信心总数的关系的确是线性的,因为在斜率为0的情况下不存在任何线性关系。
- 方法2:利用hypothesis testing的方式,设定null hypothesis为β = 0,计算如果以0为中心、左右两侧的距离分别为b的情况下p value有多大,也就是在b处于这个大小的时候,β =0的可能性有多大。
Excel生成的回归报告会自动包含p-value。如下图,x-variable(b)对应的p-valueS 0.002367,这也就代表当b = 0.018072的时候,β=0的概率是0.2367%。换言之,我们有99.7633%的信心否定null hypothesis,并认为下图中的数据存在线性关系。
通常,我们认为p-value小于0.05才可以拒绝null hypothesis。
R² vs. p-value:
- R²:反映回归线的代表性的强度,越大就表示关系越被回归线解释
- p:反应数据的分布有多线性,越小就表示数学越线性;即使看起来比较分散的数据仍然可以有很强的线性规律,因此不一定R²越小,p就越大,或者反过来
样本数量越多,回归分析的结果就越精确。
6. Multiple Regression
6.1 Introduction
1)Introducing Multiple Regression
简单回归(simple regression):
上述介绍的都属于简单回归,只考虑一个自变量对一个因变量的影响。
多元回归(multiple regression):
真实的商业问题中通常会涉及不止一个自变量,一个因变量可能会受到多个自变量影响,多元回归就是用来分析多个自变量的影响的。
例题:研究房子的价格与房子大小、距离之间的关系。价格&大小之间的R² = 26%,价格&距离之间的R² = 37%。
- 如果难以收集某一自变量的数据(如住户的通勤时间),我们可以通过研究与其相关的另一个变量(如房子距离市中心的距离),即代理变量(proxy variable)的数据获得信息。
- 注意:我们不能简单将两个单独计算出来的变量的R²加在一起得出63%,因为这两个变量之间还可能互相存在关系——离市中心越远房子越大。
- 由于存在多个变量,我们难以将关系用图像的方式进行表达、寻找规律
6.2 Adapting Basic Concepts
1)Interpreting the Multiple Regression Equation
多元回归的公式:
如果存在k个变量,估测和实际的多元回归公式如下,每个变量都含有一个系数b。误差项(error term)表示即使“实际”的多元回归公式也存在误差。
同样以房价为例,简单回归和多元回归中距离的系数相差很大,这是因为两者意义不同:
- 简单回归:系数-39505代表距离市中心每远1英里,房价就低$39,505,代表着一种均值,对房价产生总体(gross)的影响,实际上也会包括一点距离对房子尺寸的影响。
- 多元回归:系数-55006代表距离市中心每远1英里,房价就低$55,006,但前提是房子大小不变,只对房价产生单独(net)的影响。这个系数剥离了距离对于房子尺寸的影响,只考虑房子在一样大小时价格的不同,只和尺寸有关。
距离对房价同时产生正面和负面的影响:
- 直接影响:距离越远,房价越低
- 间接影响:距离越远,房子越大,房价越高
剥离距离对房子尺寸的影响可以帮助我们更好地观测这个问题,将正负影响整合出一个最终结果。因此,我们可以看出,如果考虑了房子尺寸带来的增高效果,距离带来的降低效果会被缓冲到-39,505,但如果不考虑房子尺寸带来的增高效果,只比较尺寸相似的房子,那么就不存在这种缓冲,距离越远房价就跌得越厉害,到了-55,006。
例:根据以上公式,S和X两套房子大小相近,X售价为$450,000,S比X距离市中心远了5英里,求S的大概价钱。
由于两房大小相近,我们只用考虑距离对价格的影响,因此只用计算出距离系数-55,006*5英里的影响,算出S会比X便宜$275,030,再用X的价格$450,000进行相减,即可得出答案$174,970。
注意:如果不知道两个房子尺寸是否相近,就不适用于以上方法,只能通过简单回归的公式进行计算。
注意:
- 即便剥离,我们也只剥离了房子尺寸和距离对于彼此的影响,但并不会排除其他影响,比如学区房。这些影响仍然会包含在我们的多元回归公式中。
- 多元回归分析的数据也依然来自样本,因此只有参考价值。分析之后要查看p-value的大小,确保数据有足够的统计意义,至少小于0.05才能确保所有自变量和因变量都具有线性关系。
- 计算出公式后,记得检查一下各系数的正负号是否符合现状与常识。
用Excel生成多元回归分析报告:
方法基本和生成简单回归分析报告一致,但需要在选择X值范围的时候同时选择所有自变量所在的位置。建议在选择的时候将表头列入其中,并勾选“标签”,可以便于区分不同的变量。
2)Residual Analysis
残差平面(residual plane):
误差(error)或残差(residual)指的是预测值和实际值的差异。在简单回归中,它可以在散点图中用点距离回归线的竖直距离进行表示。
在三个变量的情况,我们可以建立三维的立体图像,以残差平面代替回归线代表这三组数据之间的关系,而每个点距离这个平面的竖直距离就是多元回归的残差。
残差图:
- 用简单回归和多元回归生成的残差图也不完全一致,分别表明自变量对总数据的影响和片面的影响。
- 我们无法将所有变量混合在一起生成总残差图,只能分别生成每个自变量单独的残差图。
- 在多元回归的情况,我们仍然可以观察残差图中的同方差性和异方差性,以及判断关系是否线性。
R²:
在简单回归中,R²表示的是自变量对于因变量的解释能力。
在多元回归中,它表示的是所有自变量在一起对因变量的解释能力。在增加了更多的变量后,它只能不变或增大,不能减少。
在有两个变量的情况下,如果只有两个样本,R²就会是100%,回归线就是穿过两点的线。在有三个变量的情况下,如果只有三个样本,R²也会是100%,残差平面就会是三点建立起来的平面。
理论上,我们可以不停增加更多的无关自变量提高R²的大小,但这种情况下的R²并没有什么参考价值,并不能说明这条线/这个平面就很有代表性,只能说是样本太少了。
为了平衡自变量数量带来的影响,我们采用以下公式重新计算R²,每加一个自变量就会稍微减小一点R²的大小:
- n = 样本数量
- k = 自变量数量
Excel生成的回归报告中会同时包含调整前后的R²:
6.3 New Concepts in Multiple Regression
1)Multicollinearity
多重共线性(Multicollinearity):
当变量增多后,R²变大,但P-value却有可能也变大,导致超过0.05。这种情况的发生通常是因为两个自变量高度相关,具有很强的线性关系,一个变量实际上可以作为另一个的代理变量。这种情况被称为多重共线性。
在房价的案例中,如果在房子大小、距离市中心距离之外再加入地皮大小这一变量,就会产生下图的变化,房子大小的p-value变成0.2179>0.05,不再有参考价值。这是因为地皮大小和房子大小两个变量高度相关,难以在回归分析中将它们割裂开来单独分析一个因素的影响。
如何识别Multicollinearity:
√ 在增加了新的自变量后,某个自变量的p-value骤增
√ 极高的adjusted R²
如何识别哪两个变量之间关系很强:
- 计算两个自变量的correlation coefficient,越大关系就越强
- 将两个可能相关的自变量 + 因变量拿出来做回归分析,观察一下p-value是否仍然很大,如果是就代表二者紧密相关
Multicollinearity的影响:
- 不影响预测未来的情况。如果确定这两个相关的自变量都会对因变量产生影响,且增加的自变量可以提高adjusted R²,就可以保留
- 不利于分析各个自变量之间的关系以及对彼此的影响。
- 可以通过增多样本,或移除一个相关自变量减小multicollinearity的大小。移除自变量需要我们对变量的影响足够了解,确保这个自变量在其他因素均相同的情况下不会对因变量造成很大影响。
2)Lagged variable
滞后变量(lagged variable):
我们在以上的房价例子中收集到的数据都是截面数据(cross-sectional data),即截出一个具体时间点同时收集的数据,比如分析同一时间点上不同地区、大小房子的价格。而时间序列(time series)则是随着时间变化收集的不同时间点的数据,比如分析同一商品在不同年份销量受广告影响的变化。
有时候,因变量会受到之前的时段的某个自变量的影响,比如去年投放的广告仍然可能影响今年的销量。这时,我们可以把去年投放的广告也作为一个自变量进行分析,这个自变量也就是滞后变量。
出于收集到的数据数量的限制,我们必须去掉第一组和最后一组数据才能保证每一栏都有数据。
增加滞后变量可以帮助我们提前判断未来的情况。它有以下负面影响,因此只有当我们确定增加滞后变量的好处多于坏处才应该增加:
- 我们不得不缩小样本的数量
- Adjust R²会减小,数据的解释能力降低
- P-value会暴增,这是因为滞后变量(去年广告额度)和其他自变量(今年广告额度)高度相关
3)Dummy variables
变量可以分为:
- 表数量(quantitative):距离、价格、面积...,是可以量化的变量;我们之前讨论的也都是这种
- 表性质(qualitative):材质、口味...,是无法被量化、表种类的变量;我们可以用虚拟变量(dummy variable)来表示这种变量,以0和1代表是否属于某种种类。
例:我们可以用0和1分别代表肉制品公司的两种产品,1代表是产品P,0代表不是,而不是产品P就代表是产品C。
Sales = -631,085 + 533,024 * Poulk! Flavor +50.5* Advertising
进行多元回归分析后,这个变量的系数533,024代表的是,当广告支出一致的情况下,每年产品P的销量比产品C多$533,024。
如果用散点图表示的话,这两种产品的价格与广告额的回归线会是平行的,产品P恒定比产品C多$533,024的销量。两条线的斜率一致,都是50.5,代表如果控制了产品种类相同,销量会随着每$1广告额平均增加$50.5。
+533,024代表产品P比产品C多$533,024的销量。在这里,产品P被设为1,但其实无论哪个产品被设为1得出的都是以下的图像。如果产品C被设为1,系数则会变成-533,024,代表它比产品P少$533,024的销量。
如果dummy variable的p-value小于0.05,就代表我们有95%的信心其系数不为0,这也就意味着我们可以95%确定这个变量对于最终的结果是有影响的。
如果有不止两个种类,则需要更多的dummy variable,但其数量总是种类数-1,比如如果有三种产品需要分析,就需要两个dummy variable,且每个都各自代表是一种产品。这是为了省去创造多余的变量,比种类数少一个就可以不加重复地表现出每个产品的类别了。
只使用dummy variable做简单回归分析相当于对两类产品的mean做two population hypothesis test。如果得出的p-value大于0.05,代表我们没有足够的证据证明两组数据的mean不同,反之则可以证明两组数据的mean不同。
例题:为了提前预测酒店客流量的问题,我们需要用到lagged variable。
通过客流量的年度变化数据,我们可以看到每年的数据随着季节都有相似的峰值和低谷,具有相对固定的旺季和淡季,因此我们可以利用一年前同月份的数据帮助预测本年度的客流量,即设定12月前的客流量数据为lagged variable。
- 利用这个lagged variable作为自变量、客流量作为因变量运行简单回归分析,可以得出adjusted variable为0.53左右的结果。
- 利用这个lagged variable + 当月到达人数作为自变量、客流量作为因变量运行多元回归分析,可以得出adjusted variable为0.60左右的结果。
为了提升adjusted R²的预测能力,我们还可以加入更多的变量:以竞争对手是否运行促销活动作为dummy variable,是 = 1,否 = 0。由于竞争对手会至少提前一个月开始投放促销广告,因此这个变量也可以用来帮助预知下个月的客流量。
- 利用dummy variable作为自变量,客流量作为因变量运行多元回归分析,可以得出adjusted variable为0.15左右的结果,单独来看并不是很有代表性。
- 但利用lagged variable + 当月到达人数 + dummy variable作为自变量、客流量作为因变量运行多元回归分析,就可以得出adjusted variable为0.84左右的结果,大大提升了预测的可靠度。
7. Decision Analysis
7.1 Introduction
决策分析(decision analysis):
用于帮助在不确定的情况下权衡利弊、做出更理智和全面的决定,但并不保证万无一失。
7.2 Decision Trees
1)Uncertainty and Probability
未发生事件的不确定性:
发生某事的可能性总是位于0-1之间,或0-100%之间,分别代表完全不可能发生和一定会发生。
在以下的转盘中,橙色和绿色各占据转盘1/2的面积,因此转到橙色和绿色的可能性各为50%。但这不代表我们随便转几次之后都一定会得到橙色50%绿色50%的结果,而是代表当我们转无数次后,转到橙色或转到绿色的结果都会趋近50%。
实际生活中,会有更多的因素影响最终的结果,因此判断的过程会更加复杂。
我们实际做决定的时候时常会进行从直觉出发的估算,如“天上有乌云,大概有40%的几率会下雨,应该带雨伞”,尽管我们并没有真正统计过乌云和下雨之间的概率,只是大概凭感觉认为这一带在这个季节,有乌云的时候一半以下的日子都下雨了。
但即使是这种根据相对频率出发做出的判断,也比单纯的0%或者100%更有价值,可以用于参考。
已发生事件的不确定性:
还有些情况是,事情已经发生了,但我们因为信息的不足不知道结果是什么。比如,同样转转盘,但把眼睛蒙起来猜转出来的结果。
尽管我们可以根据转盘上不同颜色的比例大概判断出选择哪个颜色在长期上猜对的可能性更大,但对于每个单次结果来说其实帮助并不是很大。
2)Structuring Decision Trees
决策树(decision tree):
- 用于帮助我们在视觉上整理决策的各种可能、整理思路、权衡利弊的图表工具,从左到右进行绘制。
- 我们在绘制中需要考虑哪些事情会导致哪些结果,哪些事情会因为之前的选择发生/不发生等。
- 绘制决策树时要时常考虑,除了目前摆在我们面前的可能之外是否还有其他更好的选择?
决策点(decision node):
决策树图表中的方形节点,代表从这里出发可以做出不同的选择,是我们自己可以控制的。
机会点(chance node):
决策树中的圆形节点,代表可能出现的不同情况,即各种不确定的结果,是我们自己不能控制的。
例:
电影剧本选择制作公司,需要考虑电影的成败带来的不确定性。公司K只买走部分版权,根据电影成败分红,成功可赚6M,失败赔钱2M。公司P买走全部版权,无论电影成败只会一次性结清1M。
虽然实际生活中最后的结果可能会得出一整个范围的各种不同数据,但在决策树的情况,我们只需要列出几个最具有代表性的数据就可以帮助我们较好地做出决定。每个数据都代表一定的范围,而不仅仅是其本身。
我们需要根据过往数据或经验判断出各个情况发生的可能性有多高,估测出百分比。
我们需要确保:
- 每个情况之间互不重合,不可能同时发生。
- 每个决定下面所有可能情况的发生百分比加起来满足100%。
- 极其罕见的小概率事件被包括在已有的分支中,不单独列出。
7.3 Comparing the Outcomes
1)Introducing the Expected Monetary Value
预期货币值 Expected monetary value (EMV)
- 一个选项的所有可能情况的可能性 × 金额加起来的和,表示了这个选项的含金量。
- 它并不代表选择了这个选项就会带来这么多金额,而代表选择了这个选项在长期上每次的平均价值是这么多金额。
计算出一整个选项的EMV可以帮助我们简化决策树。在电影制作的例子,我们可以把公司K的三种可能计算出总共的EMV,并与公司P的EMV比较。
由于公司K的EMV更高,我们选择公司K、剪掉公司P这支,并在方形的决策点处写出做出这个决定之后的EMV。如果之后需要做更多的选择,决策树会随着这样的操作被越剪越小。
2)Relevant Costs
例题:在花费$500修汽车空调后,被告知还需要$1200修理其他部分。目前我们可以选择:
- 修车后提升汽车价值到$1100
- 不修车直接卖掉,但只能卖$300。
沉没成本(sunk cost):
由于$500是已经存在的支出,或者“沉没成本”,它其实可以被加到两个选项上。但因为两边都加,它对最后的决定其实没有任何作用,是可以划掉的。在画决策树的时候,要注意确保要么两侧都不加沉没成本,要么两侧都加,不要只加一侧。
在绘制决策树的时候,还应该考虑到做出决定后可能影响的其他结果,比如选择修车之后很可能之后还会继续频繁修车,选择卖车之后必须要采用其他的代步工具,造成新的支出。
决策树两端还应该包括:
- 机会成本(opportunity cost),即在做了这个决定的同时不得不放弃的其他机会。
- 非货币成本(non-monetary cost),比如决定伴随的情感价值。
投资期限(time horizon):
例题:在决定换新车后,朋友出国两年,给你两个选择:
- 每年花$700租他的车,回国后把车还给他
- 花$4000一次性买他的车
由于两个选项的付钱时间不一样,我们并不能直接比较$4000和$1400之间的区别,而是要计算出另一个$700在目前值多少钱。
- 租车:目前在做的其他投资的年平均回报率是5%,因此明年的$700是现在的$666.67,选择租车的成本是现在的$1366.67。
- 买车:买车之后,用了两年以后车子会相当于$3000;如果两年后卖了车,根据利率计算,这$3000是现在的$2,721.09,选择买车的成本支出其实只有$1278.91。
单凭数据来看,买车比租车便宜$87.76,但在决定前还需要考虑其他因素,比如买车是否需要贷款、贷款利率等。
将未来价值转换为当前价值(present value):
- v = 未来价值
- r = 年利率(或者其他周期的利率)
- n = 年(或者其他周期)
计算净当前价值:
净当前价值 = 未来价值 - 最初支出成本
3)Solving the Chez Tethys Problem
例题:竞拍成本$16K,竞拍成功的概率是20%,如果竞拍成功可以得到$100K的合同,但会在1年后结款,折现率是15%。
由于涉及延时获利,我们需要将一年后获得的$100K按照15%的折现率折合成当前价值。根据当前价值的计算公式,$100K相当于$86957的现在的钱,减去$16K的成本后,相当于净盈利$70957。
但这只是假设竞拍成功后的净利润。如果选择竞拍,要同时考虑成功或失败的可能,综合计算下来,选择竞拍的EMV是$1391.4,不选择竞拍的EMV则是$0。
如果把合同改为两年后才结款,则降低了终值的当前价值,$100K放到当前只值$75614,减去$16K的成本之后,只剩下$59614。
综合计算出选择竞拍的EMV,发现成了负数$-877.2,这体现了时间的重要性。
7.4 Sensitivity Analysis
1)A Decision's Sensitivity to Outcome Estimates
敏感度分析(sensitivity analysis):
以上的分析建立在假设和推断的数据上。如果你对自己假设的数据不是很有信心的话,可以假设其他数据全部正确,但试着变动某一个不太确定的数据,看看变化后的EMV会不会颠覆之前的判断。
这也就是敏感度分析。进行敏感度分析可以帮助我们排除一些潜在的隐患,对情况形成更清醒的认识,避免对初步结果盲目自信。
以之前的电影为例,如果不确定电影大火后是否能卖到$6M,感觉说不定只能卖到$4M,可以把$4M代进去试试。计算出来最终公司K的EMV是$0.8M,比公司P的EMV$1M低,颠覆了之前$1.4M>$1M的结果。
通过不等式计算我们可以发现,如果想要公司K的EMV大于公司P,必须要保证电影大火时的票房B至少达到$4.67M。
- 因此,只要我们有信心电影大火时的票房能超过$4.67M,不需要更确定具体的数据也都可以信心满满地投奔公司K了。
- 反之,如果难以确定电影大火时的票房能否达到$4.67M,则可能需要收集更多数据帮助判断。
- 如果感觉基本可以正好达到$4.67M,则意味着这两个选项的结果基本一样,也不用额外操心了。
敏感度分析还可以帮助我们判断一些难以用金钱和数据衡量的因素,比如情感价值。
比如电影的例子,和公司K合作会造成很多不愉快,在这里用F代替。每个涉及公司K的选项的金额都需要减去F,导致在最终公司K的EMV上也会减去F。根据以下计算,在F大于$0.4M时,公司P比公司K更好,因此我们需要扪心自问是否愿意花$0.4M避免这种不愉快。
2)Solving the Uncertain Estimates Problem
8. Decision Analysis II
8.1 Conditional Probabilities
1)Joint and Marginal Probabilities
2)Conditional Probabilities in Decision Analysis
8.2 The Value of Information
1)The Expected Value of Perfect Information
2)Solving the Market Research Problem
8.3 Risk Analysis
1)Introducing Risk
2)Solving the Market Research Problem (II)
附1:词汇表
- histogram 直方图
- outlier 异常值
- mean 平均值
- median 中位数
- mode 众数
- bimodal distribution 双峰分布
- standard deviation 标准差
- variance 方差
- coefficient 系数
- coefficient of variation 变异系数
- index 指数(复数为indices)
- bin 直方图的条(在中文Excel表格中被直译为“箱”)
- bin range 直方图的区间范围(即绘制直方图时以如何设定每一条代表的区间大小)
- scatter diagram 散点图
- time series 时间序列
- hidden variable 隐变量
- correlation coefficient 相关系数
- sample 样本
- population 总数
- sampling error 抽样误差
- confidence interval 置信区间
- normal distribution 正态分布
- cumulative probability 积累概率
- degrees of freedom 自由度
- central limit theorem 中心极限定理
- hypothesis test 假设检验
- null hypothesis 零假设
- alternative hypothesis 非零假设
- rejection region 拒绝域
- statistical significance 统计显著性
- one-sided hypothesis test 单侧假设检验
- two-sided hypothesis test 双侧假设检验
- upper bound 上界
- lower bound 下界
- regression line 回归线
- independent variable 自变量
- dependent variable 因变量
- explanatory variabale 解释变量
- error 误差
- Sum of Squared Errors 误差平方和
- Total Sum of Squares 总平方和
- Residual Sum of Squares 残差平方和
- Regression Sum of Squares 回归平方和
- R-squared 决定系数
- residual plot 残差图
- homoskedasticity 同方差性
- heteroskedasticity 异方差性
- simple regression 简单回归
- multiple regression analysis 多元回归分析
- proxy variable 代理变量
- error term 误差项
- multicollinearity 多重共线性
- cross-sectional data 截面数据
- lagged variable 滞后变量
- dummy variable 虚拟变量
- decision analysis 决策分析
- decision tree 决策树
- decision node 决策点
- chance node 机遇点
- Expected monetary value (EMV) 预期货币值
- sunk cost 沉没成本
- opportunity cost 机会成本
- time horizon 投资期限
- terminal value 终值
- sensitivity analysis 敏感度分析
附2:Excel公式表
- mean: =AVERAGE
- median: =MEDIAN
- mode: =MODE
- variance: =VAR
- standard deviation: =STDEV
- correlation coeficcient: =CORREL
- cumulative probability: =NORMSDIST(standard);=NORMDIST(任意)
- z-value: =STANDARDIZE(任意);=NORMSINV(standard)
- z-value对应数值:=NORMINV(任意)
- 开根号: =SQRT
- t-value: =IV