深入浅出数据分析----- 学习笔记

数据分析固定流程

  • 客户帮你确定问题,客户试分析结果的服务对象,可能是上司、执行官、本人。客户将根据你的分析作决策,需要从他那里多了解一些信息,才能确定问题:

                                 

  • 分解

      

  • 评估

        

心智模型
  • 你对外界的假设和你确信的观点就是心智模型
  • 统计模型取决于心智模型,如果采用错误的心智模型,分析会胎死腹中
  • 心智模型决定你的观察结果,是你观察现实的棱镜
  • 你无法看到一切,因此你的大脑必须做出选择,以便集中注意力,这就是所谓的心智模型大大决定观察结果
  • 心智模型应包含不了解的因素:一定要指出不确定因素,只要明确不确定因素,就会小心防范并想出办法填补知识空白,继而提出更好的建议。考虑不确定因素及盲点会让人感觉不爽但回报显著。这种反查方法揭示出未知信息,而不是已知信息。如,雇佣舞蹈家,对其不会跳的舞更感兴趣。
观察研究法 被研究的人自行决定自己属于哪个群体的一种研究方法
拆分数据块 为了控制观察研究混杂因素,有时需将数据拆分为更小的数据块。这些数据块更具有同质性,即数据块不包含那些有可能扭曲你的分析结果及让你产生错误想法的内部偏差。
控制组
  • control group:一组体现现状的处理对象,未经过任何新的处理(对照组)
  • 没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断
  • 历史控制法:取用过去的数据,并将这些数据作为控制数据。偏向于你力图进行检验的对象的成功方面,因为很难选出和你所测试的组真正相似的控制组。总体上,应对历史控制法表示怀疑。
  • 同期控制法:控制组与实验组在同样的时期内经历同样的事

不可控因素;

可控因素

                 
假设检验

证伪法:剔除无法证实的假设。可以克服人们专注于错误答案而无视于其他答案的天然倾向。通过强迫自己以完全正规的方式思考问题,会减少因忽视重要特征情况而犯错误的可能性。

满意法:选出看上去最可信的第一个假设。满意法的问题是当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山。

诊断性 是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。
基础概率 事前概率:在根据试验结果单独分析前,就知道的概率
主观概率

如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率

是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的可靠数据的情况下

启发法

心理学定义:用一种更便于理解的属性代替一种难理解的、令人困惑的属性

计算机科学定义:一种解决问题的方法,可能得出正确答案,但不保证得出最优化答案

快省树 快是指完成这个过程费时不多,省是指不需要大量认知资源
外插法

用回归方程预测数据范围以外的数值称为外插法,风险大。使用外插法需要指定附加假设条件,明确表示不考虑数据集外发生的情况。

用回归方程预测数据范围以内的数值称为内插法,准确。

机会误差

实际结果与预测结果之间的偏差,又叫残差

预测总是与机会误差同在

标准偏差

描述的是平均值周围的分布情况

这种度量方式描述的是一个变量

均方根误差

描述的是回归线周围的分布情况

指两个变量之间的关系

又称残差标准差

分割

将数据分析拆分为几个组。如果为几个分组分别创建预测模型比单独使用一个模型更能减小误差,则应进行分割。

回归线是与平均值图形重合程度最高的线条

猜你喜欢

转载自blog.csdn.net/mengjizhiyou/article/details/82970008