[数据挖掘] 数据分析的八种方法

一、说明

同类型的数据分析包括描述性、诊断性、探索性、推理性、预测性、因果性、机械性和规范性。以下是您需要了解的有关每个的信息。本文对于前人归纳的8种进行叙述。

二、数据分析有哪些不同类型?

2.1 分析目的不同

        基本存在8个方面:数据分析可以分离并组织成类型,按复杂性递增的顺序排列。

  1. 描述性分析
  2. 诊断分析
  3. 探索性分析
  4. 推理分析
  5. 预测分析
  6. 因果分析
  7. 机理分析
  8. 规范性分析

        凭借其多方面,方法和技术,数据分析用于各个领域,包括商业,科学和社会科学等。随着企业在数据分析技术进步的影响下蓬勃发展,数据分析在决策中发挥着巨大作用,提供了一个更好、更快、更有效的系统,可以最大限度地降低风险并减少人为偏见

        也就是说,有不同类型的数据分析迎合不同的目标。我们将在下面逐一检查。

 2.2 分析手段不同

          数据分析可以分为两个阵营,根据《数据科学的R》一书:

  1. 假设生成 — 这涉及深入研究数据并结合您的领域知识来生成有关数据为何如此行为的假设
  2. 假设确认 — 这涉及使用精确的数学模型生成具有统计复杂性的可证伪预测,以确认您之前的假设。

三、8个经典数据分析法

3.1. 描述性分析

        描述性分析的目标是描述或总结一组数据。以下是您需要了解的内容:

  • 描述性分析是在数据分析过程中执行的第一个分析。
  • 它生成有关样品和测量的简单摘要。
  • 它涉及常见的描述性统计数据,如集中趋势、变异性、频率和位置的度量。

        描述性分析示例

        以谷歌上的 Covid-19 统计页面为例。折线图是病例/死亡的纯粹摘要,是受病毒感染的特定国家人口的呈现和描述。

        描述性分析是分析的第一步,您可以使用描述性统计量汇总和描述您拥有的数据,结果是数据的简单表示。

        有关数据分析的更多信息:数据分析师与数据科学家:解释异同

 

3.2. 诊断分析

        诊断分析试图通过更深入地查看数据来发现微妙的模式来回答“为什么会发生这种情况?”这个问题。以下是您需要了解的内容:

  • 诊断分析通常在描述性分析之后进行,获取初步结果并调查数据中某些模式发生的原因。
  • 诊断分析可能涉及分析其他相关数据源(包括过去的数据),以揭示对当前数据趋势的更多见解。
  • 诊断分析非常适合进一步探索数据中的模式以解释异常。

        诊断分析示例

        某鞋类商店想要查看其过去 12 个月的网站流量水平。在汇编和评估数据后,该公司的营销团队发现 <> 月份的流量高于平均水平,而 <> 月和 <> 月的流量水平略低。

        为了找出发生这种差异的原因,营销团队进行了更深入的研究。团队成员分解数据以专注于特定类别的鞋类。在 6 月份,他们发现以凉鞋和其他海滩相关鞋类为特色的页面获得了大量浏览量,而这些数字在 7 月和 8 月有所下降。

        营销人员还可以查看其他因素,如季节性变化和公司销售事件,看看其他变量是否促成了这一趋势。

 

3.3. 探索性分析

        探索性分析涉及检查或探索数据以及查找以前未知的变量之间的关系。以下是您需要了解的内容:

  • EDA 可帮助您发现数据中度量值之间的关系,这些关系不是相关性存在的证据,如短语“相关性并不意味着因果关系”所示。
  • 它对于发现新的联系和形成假设很有用。它推动了设计规划和数据收集。

        探索性分析示例

        全球气温多年来逐渐上升,气候变化是一个越来越重要的话题。关于气候变化的探索性数据分析的一个例子涉及从1950年到2020年的气温上升以及人类活动和工业化的增加,以从数据中找到关系。例如,您可以增加工厂、道路上的汽车和飞机飞行的数量,以了解这与温度升高的关系。

探索性分析探索数据以查找度量之间的关系,而无需确定原因。它在制定假设时最有用。

 

3.4. 推论分析

推理分析涉及使用少量数据样本来推断有关较大数据群的信息。

统计建模本身的目标就是使用少量信息将信息外推和推广到更大的群体。以下是您需要了解的内容:

  • 推论分析涉及使用代表总体的估计数据,并为您的估计提供不确定性或标准偏差的度量。
  • 推理的准确性在很大程度上取决于您的抽样方案。如果样本不能代表总体,则泛化将不准确。这被称为中心极限定理

        推理分析示例

        用较小的样本量对整个总体进行推断的想法是直观的。您在媒体和互联网上看到的许多统计数据都是推论性的;基于小样本的事件预测。例如,一项关于睡眠益处的心理学研究可能总共有500人参与。当他们跟进候选人时,候选人报告说,在七到九小时的睡眠中,他们的整体注意力跨度和幸福感更好,而那些睡眠较少和睡眠时间超过给定范围的候选人则注意力持续时间和精力减少。这项来自500人的研究只是世界上7亿人的一小部分,因此是对更大人口的推断。

        推论分析用较小的样本推断和概括较大群体的信息,以生成分析和预测。

 

3.5. 预测分析

        预测分析涉及使用历史或当前数据来查找模式并对未来进行预测。以下是您需要了解的内容:

  • 预测的准确性取决于输入变量。
  • 准确性还取决于模型的类型。线性模型在某些情况下可能运行良好,而在其他情况下则可能不行。
  • 使用一个变量来预测另一个变量并不表示因果关系。

        预测分析示例

        2020年美国大选是一个热门话题,许多预测模型都是为了预测获胜的候选人而建立的。FiveThirtyEight这样做是为了预测2016年和2020年的选举。选举的预测分析需要输入变量,例如历史民意调查数据、趋势和当前民意调查数据,以便返回良好的预测。像选举这样大的事情不仅仅是使用线性模型,而是使用具有某些调整以最好地达到其目的的复杂模型。

        预测分析从过去和现在获取数据来预测未来。

        有关数据的更多信息:解释正态分布的经验

 

3.6. 因果分析

因果分析着眼于变量之间关系的原因和影响,并侧重于找到相关性的原因。以下是您需要了解的内容:

  • 要找到原因,您必须质疑观察到的驱动结论的相关性是否有效。仅仅查看表面数据并不能帮助你发现相关性背后的隐藏机制。
  • 因果分析应用于专注于确定因果关系的随机研究。
  • 因果分析是数据分析和科学研究的黄金标准,其中现象的原因被提取和挑出来,就像将小麦与谷壳分开一样。
  • 好的数据很难找到,需要昂贵的研究和研究。这些研究是汇总分析的(多组),观察到的关系只是整个人群的平均效应(平均值)。这意味着结果可能不适用于所有人。

        因果分析示例 

        假设你想测试一种新药是否能提高人类的力量和注意力。为此,您需要对药物进行随机对照试验以测试其效果。您将新药的候选样本与接受模拟对照药物的候选药物进行比较,通过一些侧重于强度和整体注意力的测试。这将使您能够观察药物如何影响结果。

        因果分析是关于找出变量之间的因果关系,并检查一个变量的变化如何影响另一个变量。

 

3.7. 机理分析

        机理分析用于了解导致其他变量其他变化的变量的确切变化。以下是您需要了解的内容:

  • 它应用于物理或工程科学,需要高精度和误差余地小的情况,只有数据中的噪声是测量误差。
  • 它旨在了解生物学或行为过程,疾病的病理生理学或干预的作用机制。

        机理分析示例

        许多研究生水平的研究和复杂的主题都是合适的例子,但简单来说,假设进行了一项实验来模拟安全有效的核聚变,为世界提供动力。对研究的机理分析将需要控制和操纵变量的精确平衡,同时对变量和预期结果进行高度准确的测量。正是这种对这些重大话题的复杂而细致的工作方式,才允许科学突破和社会进步。

        机理分析在某些方面是一种预测分析,但经过修改以解决需要高精度和细致的物理或工程科学方法的研究

 

3.8. 规范性分析

规范性分析从其他以前的数据分析中汇编见解,并确定团队或公司可以采取的行动,为预测趋势做好准备。以下是您需要了解的内容:

  • 规范性分析可能紧随预测分析之后,但它可能涉及结合许多不同的数据分析。
  • 公司需要先进的技术和大量资源来进行规范性分析。处理数据和调整自动化任务的人工智能系统是执行规范性分析所需技术的一个例子。

        规范性分析示例

        规范性分析在日常生活中无处不在,推动了用户在社交媒体上消费的精选内容。在TikTok和Instagram等平台上,算法可以应用规范性分析来审查用户过去参与的内容以及他们在特定帖子中表现出的行为类型。基于这些因素,算法会寻找可能引起相同响应的类似内容,并在用户的个人提要上推荐它。 

四、何时使用不同类型的数据分析

  • 描述性分析总结手头的数据,并以易于理解的方式呈现您的数据。
  • 诊断分析更详细地查看数据以揭示某些模式发生的原因,使其成为解释异常的好方法。
  • 探索性数据分析可帮助您发现数据中变量之间的相关性和关系。
  • 推论分析用于使用较小的数据样本量概括较大的总体。
  • 预测分析可帮助您利用数据对未来进行预测
  • 因果分析强调找到变量之间相关性的原因。
  • 机理分析用于测量导致其他变量其他变化的变量的确切变化。
  • 规范性分析结合了来自不同数据分析的见解,以制定团队和公司可以采取的行动方案,以利用预测结果。

关于数据分析,要记住的一些重要提示包括:

  • 相关性并不意味着因果关系。
  • EDA 有助于发现新的联系并形成假设。
  • 推理的准确性取决于抽样方案。
  • 一个好的预测取决于正确的输入变量。
  • 具有足够数据的简单线性模型通常可以解决问题。
  • 使用变量预测另一个变量并不表示因果关系。
  • 好的数据很难找到,而产生它需要昂贵的研究。
  • 研究结果是汇总的,是平均效应,可能不适用于每个人。

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/131468479
今日推荐