大数据分析：将大数据转化为巨额资金第四章和第五章

第4章构建大数据团队

大数据项目最重要的元素之一是一个相当明显但经常被忽视的项目：人。没有人工参与或解释，大数据分析变得毫无用处，没有任何目的，没有价值。需要一个团队才能使大数据工作，即使该团队只由两个人组成，它仍然是一个必要的元素。

将人们聚集在一起建立一个团队可能是一个艰巨的过程，涉及多个会议，也许是招聘，当然还有人事管理。需要几种大数据专业技能，这就是团队的定义。确定这些技能是团队合作的第一步。

数据科学家

熟悉的第一个概念之一是数据科学家;一个相对较新的标题，它不容易被许多组织认可或接受，但它仍然存在。

数据科学家通常与员工或商业智能（BI）顾问相关联，他擅长分析数据，特别是大量数据，以帮助企业获得竞争优势。数据科学家通常是Big Dataanalytics项目中事实上的团队领导者。

标题数据科学家有时被贬低，因为它缺乏特异性，可以被视为数据分析师的一个强化的同义词然而，这个位置正在获得大型企业的认可，这些企业有兴趣从大数据中获取意义，结构化，非结构化和半结构化的数据量很大。大型企业生产或有权使用。

数据科学家必须具备分析，机器学习，数据挖掘和统计技能的组合，以及经验和算法和编码。然而，数据科学家应该具备的最关键技能是能够以其他人容易理解的方式转换数据的重要性。

团队挑战

通过分析技能寻找和雇用有才能的员工是创建有效数据分析团队的第一步。组织该团队是下一步;必须将IT和BI组之间的关系纳入团队设计，从而确定为大数据分析专业人员提供多大的自主权。

具有高度组织和集中的公司结构的企业将倾向于将分析团队置于IT部门或业务智能能力中心之下。然而，许多专家发现成功的大数据分析项目似乎使用不那么集中的方法更好地工作，让团队成员可以自由地解释结果并定义查看数据的新方法。

为了最大限度地提高效率，大数据分析团队可以通过业务功能进行组织，也可以直接放在特定的业务部门中。这方面的一个例子是在市场营销部门建立一个专注于客户流失（客户账户周转）和其他营销相关分析的分析团队，而以风险为中心的数据分析项目团队则更适合财务部门。

理想情况下，将大数据分析团队置于一个部门，使得结果数据具有直接价值，这是加速寻找，确定价值并以可操作的方式交付结果的最佳方式。这样，分析师和部门决策者就会说同一种语言，并以协作的方式工作，以获得最好的结果。

这一切都取决于规模。小型企业可能具有与大型企业不同的分析需求，这显然会影响与数据分析专业人员及其工作部门的关系。

不同的团队，不同的目标

一个典型的例子是工程公司正在检查大量非结构化数据以进行技术分析。公司本身可能很小，但数据集可能非常大。例如，如果工程公司正在设计桥梁，那么大数据分析的组成部分可能涉及从人口普查数据到交通模式的各种因素，这些因素可用于揭示会影响桥梁设计的负荷和交通趋势。如果添加其他元素，例如市场数据（材料成本和区域的预期财务增长），数据科学家的定义可能会发生变化。这个人可能需要工程背景和对经济学的敏锐理解，可能只与项目的主要工程师合作，而不是与任何其他公司部门合作。

这可能意味着公司的营销和销售部门处于冷落状态。那么问题就是这种分析方式对这些部门的重要性 - 可以说，它根本不重要。在这样的情况下，市场分析，竞争，政府资金，基础设施年龄和使用以及人口密度可能不适用于就地数据科学家，但可能需要不同的个人技能来成功地解释结果。

随着分析需求和组织规模的增加，角色可能会发生变化，流程和关系也会发生变化。较大的组织倾向于拥有资源和预算来更好地保护他们的数据。在这些情况下，重要的是要认识到大数据分析团队所需的主要技能，并建立团队核心竞争力。幸运的是，识别这些核心能力相对容易，因为团队的任务可以分解为任意能力。

不要忘记数据

数据分析团队需要三个主要功能：（1）定位数据，（2）规范化数据，（3）分析数据。

对于第一个定位数据的功能，个人必须能够从内部和外部源获取相关数据，并与IT部门的数据治理团队合作以保护对数据的访问。该个人可能还需要与外部企业，政府部门和研究公司合作，以获取对大型数据集的访问权限，以及理解结构化数据和非结构化数据之间的差异。

对于第二种功能，规范化数据，个人在分析原始数据之前先备份原始数据以删除任何虚假数据。此过程需要技术技能和分析技能。个人可能还需要知道如何组合数据集，在存储平台上加载数据集，以及构建对内容进行整形化的字段矩阵。

分析数据的第三个能力可能是团队最重要的苦差事。对于大多数组织而言，分析过程由数据科学家进行，他们访问数据，设计算法，收集结果，然后呈现信息。

这三个主要的杂务定义了数据分析团队的功能。但是，每个类别下都有几个任务子集，这些任务可以根据范围和特定于所需数据分析过程的其他元素而变化。

与数据本身非常相似，团队本质上不应该是静态的，应该能够发展并适应业务需求。

找到合适的人才来分析数据是构建Ateam的最大障碍。这些人才需求量很大，对数据分析师和数据科学家的需求继续以几乎指数的速度增长。找到这种人才意味着组织必须专注于数据科学并聘请统计建模者和文本数据挖掘专业人员以及专注于情绪分析。 BigData分析的成功需要可靠的数据模型，统计预测模型和测试分析模型，因为这些将是执行大数据所需的核心应用程序。定位适当的人才需要的不仅仅是典型的IT职位; 良好的投资回报所需的技能并不简单，也不仅仅是技术导向。一些组织可能会转向咨询公司以满足人才需求; 然而，许多咨询公司也很难找到可以让BigData获利的专家。

然而，大数据风暴云有一线希望。 BigData与技术有关，与技术有关，这意味着它需要混合型人才。这使得潜在专家群体不仅仅比IT专业人员更加深入。实际上，BigData专家可以从其他非IT中心部门开发，但确实需要对事实进行研究，分析和解释。

潜在的人才库可能会增长，包括对大数据技术平台有着浓厚兴趣的工作人员，他们拥有早期职业网站开发工作的工具背景，或者天生好奇，才华横溢，自学成才的人才。要求在工作中做得更好。这些人通常是能够理解数据价值和如何解释数据的意识形态的人。

但是，组织不应该雇用任何对数据分析有兴趣或对数据分析有基本了解的人。重要的是要开发一种类似的试金石，以确定一个人是否具有在可能的新职业中取得成功的适当技能。候选人应具备五项关键技能的基础，以立即为大数据团队带来价值：1.数据挖掘2。数据可视化3。数据分析4。数据处理5。数据发现

这些定义了数据科学家应该能够完成的任务。

团队与文化

可以说，通过分析技能寻找和雇佣有才能的员工是建立高级数据分析团队的第一步。如果情况确实如此，那么第二步将是确定如何构建与现有IT和BI组相关的团队，以及确定为分析专业人员提供多少自主权。

这个过程可能需要建立一种新的技术专业人才文化，他们也具有重要的商业技能。发展这种文化取决于许多因素，例如确保团队以现有的商业文化方式进行教育，并强调测量和结果。

从顶部开始证明是将以IT为中心的文化转变为内部商业文化的最佳方式之一，这种文化在高级数据分析技术和基于事实的决策制定方面蓬勃发展。经历过高级管理层变革的业务往往为数据分析业务文化和数据仓库，BI和高级分析程序的开发扫清了道路。

实现文化意识形态的变革是与利用分析相关联的最重要的关键之一。许多公司已经习惯于根据直觉和过去的工作来运营，这两者都导致了一种公平的商业方式。

没有哪个地方比主要零售连锁店更明显，因为它们对各地的一致性感到自豪。这种文化背景可以证明是一种充满活力，竞争激烈的商业的对立面。建立一种使用分析意识形态的文化无法转变业务运营。例如，企业可以通过使用数据挖掘和预测分析工具自动设置将库存放入单个零售商的计划来更好地服务市场。关键是将所需的产品放在潜在的客户面前，例如知道雪铲不会在佛罗里达州出售，而且防晒霜在阿拉斯加的销售情况不佳。

在组织内培养分析业务文化的另一种可能方法是建立专门的数据分析组。拥有自己的主管的分析小组可以制定分析战略和项目计划，促进公司内部分析的使用，培训分析工具和概念的数据分析，并与部署项目的IT，BI和数据仓库团队合作。

大获成功

必须衡量成功，衡量团队对底线的贡献可能是一个艰难的过程。这就是为什么建立目标，衡量标准和里程碑以展示专注于大数据分析的团队的好处的重要性。开发绩效评估是设计业务计划的重要部分。使用BigData，可以将这些指标分配给特定目标。

例如，如果组织希望提高知识产权的效率，那么性能指标可能正在测量空箱架空间的数量以及该空架空间的成本对公司的意义。分析可用于识别产品移动，销售预测等，以将产品移动到货架空间，从而更好地满足客户的需求。它简单地比较了分析过程之前使用的空间百分比和分析团队解决问题后使用的空间百分比。

第5章大数据源

大多数组织面临的最大挑战之一是找到数据源作为其分析流程的一部分。顾名思义，大数据很大，但尺寸并不是唯一的问题。在决定如何定位和解析大数据集时，还有其他一些考虑因素。

第一步是识别可用数据。虽然这可能是显而易见的，但这不过是简单的。找到适当的数据以推进分析平台可能很复杂且令人沮丧。必须考虑源以确定数据集是否适合使用。这转化为侦探工作或调查报告。

考虑因素应包括以下内容：

数据结构（结构化，非结构化，半结构化，基于表格，专有）

数据来源（内部，外部，私人，公共）

数据的价值（通用，唯一，专业）

数据质量（已验证，静态，流式传输）

存储数据（远程访问，共享，专用平台，便携式）

数据的关系（超集，子集，相关）

所有这些元素和许多其他元素都会影响选择过程，并且可能会在分析过程发生之前对原始数据的准备（“清理”）产生巨大影响。

在IT领域，一旦找到数据源，下一步就是将数据导入适当的平台。该过程可以像将数据复制到Hadoop集群上一样简单，也可以像擦洗，索引和将数据导入大型SQL类型表一样复杂。进行数据传输或收集数据只是多步骤，有时是复杂过程中的一个步骤。

一旦执行了导入（或实时更新），就可以设计模板和脚本以简化进一步的数据收集。一旦设计了该过程，就可以更容易地执行未来。

构建大数据集最终有一个战略目的：挖掘数据，或挖掘有价值的东西。挖掘数据涉及的不仅仅是针对特定数据源运行算法。通常，必须首先将数据导入到可以适当方式处理数据的平台中。这意味着必须将数据转换为可访问，可查询和可关联的内容。采矿以胺开始，或者用大数据的说法，采用平台。最终，要拥有任何价值，该平台必须填充可用信息。

狩猎数据

查找大数据分析数据是部分科学，部分调查工作和部分假设。一些最明显的数据来源是电子交易，网站日志和传感器信息。包括在开展业务时收集的任何组织数据。这个想法是尽可能多的数据源，并将数据带入分析平台。可以使用网络分流器和数据复制客户端收集其他数据。理想情况下，可捕获的数据越多，处理的数据就越多。

查找内部数据是大数据的简单部分。一旦被认为无关，外部或非结构化的数据被纳入等式，它就会变得更加复杂。考虑到这一点，现在BigData的一个重要问题是，“我从哪里获取数据？”这不容易回答;需要一些研究将小麦与谷壳分开，因为知道谷壳可能有一些价值好。

开始构建大数据仓库需要集中精力来获取适当的数据。第一步是确定将使用哪种Big Dataanalytics。例如，企业是否希望分析营销趋势，预测网络流量，衡量客户满意度，或实现目前技术可以实现的其他一些崇高目标？

正是这些知识将决定收集BigData的位置和方式。构建此类知识的最佳方法可能是更好地理解业务分析（BA）和商业智能（BI）流程，以确定如何使用大规模数据集与内部数据进行交互以获取可操作的结果。

设定目标

每个项目通常都是以目标开始，目标是达到目标。大数据分析应该没有什么不同。然而，定义目标可能是一个困难的过程，尤其是当目标模糊不清并且比“更好地使用数据”之类的东西更多时。在寻找数据源之前定义目标是非常重要的，而在很多情况下，已经证明成功的例子可以成为定义目标的基础。

以零售组织为例。 Big Dataanalytics的目标可能是增加销售额，这是一项涵盖多个业务部门和部门的杂务，包括营销，定价，库存，广告和客户关系。一旦有了目标，nextstep就是定义目标，即达到目标的确切方法。

对于诸如零售示例之类的项目，有必要从众多来源收集信息，一些来自内部，另一些来自外部。可能必须购买一些数据，并且一些数据可能在公共领域下可用。关键是首先从内部结构化数据开始，例如销售日志，库存移动，注册交易，客户信息，定价和供应商交互。

接下来是非结构化数据，例如呼叫中心和支持日志，客户反馈（可能是电子邮件和其他通信），调查以及传感器收集的数据（商店流量，停车场使用情况）。列表可以包含许多其他内部跟踪的元素; 但是，关键是要注意数据源的投资收益递减。换句话说，某些日志信息可能不值得收集，因为它不会影响分析结果。

最后，必须考虑外部数据。有大量的外部信息可用于计算从客户情绪到地缘政治问题的所有信息。构成分析过程公共部分的数据可以来自政府，研究公司，社交网站以及众多其他来源。

例如，企业可能决定挖掘Twitter，Facebook，美国。人口普查，天气信息，交通模式信息和新闻档案，以构建丰富数据的复杂来源。一些控件需要存在，甚至可能包括在处理之前擦除数据（即，删除虚假信息或无效元素）。

丰富的数据是预测分析的基础。一家寻求增加销售额的公司可以将人口趋势和社会情绪与客户反馈和满意度进行比较，以确定销售流程可以改进的地方。在初始处理之后，可以使用更多的数据仓库，并且还可以集成实时数据以识别出现的趋势。

零售情况只是一个例子;还有其他几十种，其中每一种都可能对手头的任务有特定的适用性。

大数据来源

多个来源负责可应用于大数据技术的数据增长。其中一些来源代表了全新的数据源，而另一些则是现有数据分辨率的变化。大部分增长可归因于内容的行业数字化。

随着公司现在转向创建现有数据的数字表示并获得新的一切，过去几年的数据增长率几乎是无限的，仅仅因为大多数涉及的业务从零开始。

许多行业属于新数据创建和现有数据的数字化，大多数行业都成为大数据资源的合适来源。这些行业包括以下内容：

运输，物流，零售，公用事业和电信。

从车队GPS收发器，RFID（射频识别）标签读取器，智能电表和手机（呼叫数据线）以加速的速度生成传感器数据;这些数据用于优化运营和推动运营商业智能，以实现即时商机。

卫生保健。

医疗保健行业正在迅速转向电子医疗记录和图像，它希望使用短期公共健康监测和长期流行病学研究计划。

政府。

许多政府机构正在对公共记录进行数字化处理，例如人口普查信息，能源使用，预算，信息自由法案文件，选举数据和执法报告。

娱乐媒体。

娱乐业在过去五年中已经转移了数字录音，制作和传送，现在正在收集大量丰富的内容和用户观看行为。

生命科学。

低成本的基因测序（低于1,000美元）可以生成数十TB的信息，必须对其进行分析，以确定遗传变异和潜在的治疗效果。

视频监控。

视频监控仍在从关闭字幕电视过渡到互联网协议电视摄像机以及组织希望分析行为模式（安全和服务增强）的记录系统。

对于许多企业而言，附加数据可以来自自助服务市场，其记录亲和卡的使用并跟踪所访问的站点，并且可以与社交网络和基于位置的元数据组合。这为零售商，分销商和消费包装商品制造商创造了可操作的消费者数据的金矿。

法律专业正在增加大量数据来源，感谢发现过程，该过程更频繁地处理电子记录，并要求纸质文档数字化，以便更快地索引和改进访问。如今，领先的电子发现公司正在处理太字节甚至数PB的信息，这些信息需要在法律诉讼的整个过程中得到保留和重新分析。

其他信息和大型数据集可以在Facebook，Foursquare和Twitter等社交媒体上找到。许多新企业正在构建大数据环境，基于使用节能多核处理器的扩展集群，这些处理器利用消费者（有意识或无意识）几乎连续的数据流（例如，喜欢，位置和意见）。

由于成功站点的网络效应，生成的总数据可以以指数速率扩展。自收集信息以来，一些公司已经收集并分析了超过40亿个数据点（例如，网站剪切和粘贴操作），并且在一年之内，该过程已扩展到收集的200亿个数据点。

深入了解BIGDATA来源

分辨率的变化进一步推动了大数据的扩张。从传统系统收集传统数据点，或安装可传递更多信息的新传感器。在以下方面可以找到一些分辨率提高的示例：

金融交易。

由于全球贸易环境的整合和程序化交易的使用增加，收集和分析的交易量增加了两倍。交易量也波动得更快，更多，更不可预测。企业之间的竞争正在创造更多数据，仅仅因为交易决策的抽样更频繁且间隔更快。

智能仪表。

在能源网格系统中使用智能电表，将电表读数从每月转换为每15分钟，可以转化为数据的数千倍增长。智能电表技术不仅可以用于电力使用，还可以测量加热，冷却和其他负载，可以在任何给定时刻用作家庭规模的指标。

移动电话。

随着智能手机和连接的PDA的发展，从这些设备生成的主要数据已经超越了呼叫者，接收者和呼叫长度。其他数据现在以指数速率收获，包括地理位置，文本消息，浏览历史和（感谢加上加速度计）甚至动作，以及社交网络帖子和应用程序使用等元素。

公共信息的财富

对于那些希望对可用于大数据分析的内容进行抽样的人来说，Web上存在大量数据;其中一些是免费的，其中一些是免费的。其中很大一部分就是为了拍摄。如果您的目标是开始收集数据，那么很难击败市场上现有的许多工具。对于那些寻求简单点击的人来说，Extractiv（http://www.extractiv.com）和Mozenda（http://www.mozenda.com）提供了从多源获取数据并搜索Web的能力。信息。另一个在网络上处理数据的候选人是Google Refine（http://code.google.com/p/google-refine

），一个工具集，可以处理数据，清理它们，然后将它们转换为不同的格式进行分析。 80Legs（http://www.80legs.com）专门收集来自社交网站以及零售和商业领域的数据。

刚刚提到的工具是从Web挖掘数据以将其转换为大数据分析平台的极好示例。但是，收集数据只是许多步骤中的第一步。为了从数据中获取价值，必须对它们进行分析，并且更好地进行可视化。诸如Grep（http://www.linfo.org/grep.html），Turk（http://www.mturk.com）和BigSheets（http://www-01.ibm.com/software/ebusiness）等工具/ jstart / bigsheets）提供分析数据的能力。对于可视化，分析师可以使用TableauPublic（http://www.tableausoftware.com），OpenHeatMap（http://www.openheatmap.com）和Gephi（http://www.gephi.org）等工具。

除了使用发现工具之外，还可以通过服务和网站找到大数据，例如CrunchBase，美国人口普查，InfoChimps，Kaggle，Freebase和Timetric。许多其他服务直接提供数据集以集成到大数据处理中。

其中一些服务的价格相当合理。例如，您可以通过80Legs下载一百万个网页，价格不到三美元。一些顶级数据集可以在商业网站上找到，但是免费。一个例子是Common Crawl Corpus，它包含来自大约50亿个网页的数据，并且可以从Amazon S3以ARCfile格式获得。 Google Books Ngrams是Amazon S3免费提供的另一个数据集。该文件采用Hadoop友好格式。对于那些可能想知道的人来说，n-gram是固定大小的项目。在这种情况下，项目是从GoogleBooks语料库中提取的单词。 n指定集合中的元素数量，因此afive-gram包含五个单词或字符。

Amazon S3提供了更多数据集，它绝对可以访问http://aws.amazon.com/publicdatasets/

跟踪thesedown。另一个访问公共数据集列表的网站是：http：//www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-

public，是数据集链接和与数据集相关的信息的宝库。

开始使用大数据获取

大数据采用的障碍通常是文化而非技术。特别是，许多组织未能实施BigData计划，因为他们无法理解数据分析如何改善其核心业务。 BigData开发最常见的触发因素之一是数据爆炸，使现有数据集变得非常庞大，并且越来越难以使用传统的数据库管理工具进行管理。

随着这些数据集的规模不断扩大 - 通常从几兆字节到几千兆字节不等 - 企业面临着在可接受的时间范围内捕获，管理和分析数据的挑战。开始之前包括几个步骤，从培训开始。培训是理解大数据提供的范式转变的先决条件。没有内幕知识，就很难解释和传达数据的价值，特别是当数据是公共的时候。列表中的下一步是开发和操作团队（称为DevOps）的集成，人们最有可能处理存储和将数据转换为可用内容的负担。

确定业务负责人可以理解和关联的问题并引起他们的注意。

不要只关注技术数据管理挑战。请务必分配资源以了解业务中数据的用途。

定义必须回答的问题以满足业务目标，然后专注于发现必要的数据。

了解可用于合并数据和业务流程的工具，以便数据分析的结果更具可操作性。

构建可扩展的基础架构，可以处理数据的增长。良好的分析需要足够的计算能力来提取和分析数据。许多人气馁，因为当他们开始分析过程时，它是缓慢而费力的。

确定您可以信任的技术。有各种各样的开源大数据软件技术可供使用，许多可能会在几年内消失。找一个有专业支持的人，或者准备好从长远来看对技术和解决方案进行永久性维护。 Hadoop似乎吸引了很多主流厂商的支持。

选择适合问题的技术。 Hadoop最适合大型但相对简单的数据集过滤，转换，排序和分析。它也适用于筛选大量文本。它对于持续的持久数据管理并不真正有用，特别是在需要结构一致性和事务完整性时。

注意不断变化的数据格式和不断变化的数据需求。例如，寻求使用BI解决方案来管理营销活动的组织面临的一个共同问题是，这些活动可以非常专注，需要分析可能仅在一两个月内发挥作用的数据结构。使用传统的关系数据库管理系统技术，数据库管理员可能需要几周的时间才能让数据仓库准备好接受已更改的数据，此时该数据库已接近完成。 MapReduce解决方案（例如构建在Hadoop框架上的解决方案）可以将这些周减少到一两天。因此，不仅仅是数量，而且还可以推动大数据的采用。

持续增长，没有看到

数据创建以创纪录的速度发生。事实上，研究公司IDC的数字宇宙研究预测，在2009年到2020年之间，数字数据将增长44倍，达到每年35个zettabytes。同样重要的是要认识到，大部分数据爆炸是由于位于网络外围的设备发生爆炸，包括嵌入式传感器，智能手机和平板电脑。所有这些都为人类基因组学，医疗保健，石油和天然气，搜索，监控，金融和许多其他领域的数据分析提供了新的机会。

大数据分析：将大数据转化为巨额资金 第四章和第五章

猜你喜欢

大数据分析：将大数据转化为巨额资金第四章和第五章