大数据结构的使用攻略（二）

在上一篇文章中我们给大家介绍了大数据结构的使用策略，这些都是我们在进行大数据工作的时候需要注意的内容，从而帮助我们更准确地避免少走弯路从而进行更好的大数据工作，下面我们就给大家介绍一下大数据结构的使用攻略的其他内容。

首先我们给大家介绍一下就地处理数据。在传统商业智能解决方案通常使用提取、转换和加载流程将数据移动到数据仓库。大数据解决方案用于处理更大的数据量和更多样化的格式，它们通常使用ETL的变体，例如转换、提取和加载。使用此方法时，将在分布式数据存储中处理数据，将其转换为所需的结构，然后将转换后的数据移动到分析数据存储中。

下面我们给大家说一下平衡利用率和时间成本。在批处理工作中，我们一定要考虑两个因素，就是计算节点的每单位成本，以及使用这些节点完成工作的每分钟成本。但是，该工作可能只是在前两个小时内使用所有四个节点，在那之后，可能只需要两个节点。在这种情况下，在两个节点上运行整个作业将增加总的作业时间，但是不会使其翻倍，因此总成本更低。在某些业务方案中，与使用利用率低下的群集资源而导致更高的成本相比，延长处理时间可能更为合适。在大数据工作中，节约时间就是十分重要的事情。

接着我们给大家说一下单独的群集资源。在部署 HDInsight 群集时，通常会通过为每种类型的工作负荷预配单独的群集资源来获得更好的性能。但是，如果需要通过 Hive 和 Spark 执行大量处理，则应当考虑部署单独的专用 Spark 和 Hadoop 群集。

而安排数据引入。在某些情况下，现有业务应用程序可以将用于批处理的数据文件直接写入到Azure存储Blob容器中，不过，我们通常需要安排将数据从内部或外部数据源引入到Data Lake中。可以使用某个业务流程工作流或管道以可预测且可集中管理的方式实现此目的。

最后说一下尽早清理敏感数据。在此过程中，数据引入工作流应当尽早清理敏感数据以避免将其存储在Data Lake中。清理了敏感数据就能够更好的进行大数据的工作。从而避免敏感数据对大数据的影响。

我们在这篇文章中给大家介绍了大数据结构使用的另一最佳方法，这些方法都能够在大数据工作中加以运用，希望这篇文章能够给大家带来帮助。最后提醒大家的是，大家在进行大数据工作的时候要注意数据的清洗，这样就能够让大数据工作有条不紊地进行。

大数据结构的使用攻略（二）

猜你喜欢