数据分析遐想

目标

数据分析，其总体目标就是对各种系统产生的数据进行有意识地加工，以观察加工之后的数据是否能解释某些问题，或者能发现某些明显的模式。

对于前者，一般是问题驱动，比如产品的销售量突然出现了大幅度的下降，这个问题就驱使产品的销售去分析造成这种大幅波动的原因，这时他可以去市场上收集竞争对手方面的数据，比如它们是否发布了新的产品，抑或是进行了某些大力度的促销活动等等；除了竞争对手的数据，销售人员还会去分析是否是因为全国性的假期导致了相关的变动；或者更进一步地，是否是某种形式的经济危机导致了销售数据的大幅下降。

对于后者，一般是一种探索性的工作，当然这种探索会结合着一些问题或一些业务背景。比如，销售人员对自己的客户是否可以明显地划分成几类非常有兴趣，这时销售人员就可以从自己的销售记录中去提取相关的客户信息，比如用户的年龄、性别以及其全部的购买记录等等，利用这些数据，销售人员可以方便地划出用户年龄和其总购买额的散点图，而散点图完成之后，很可能就会展现出某种模式，利用这种模式就可以对客户群进行一些初步的分类。诚然，目前已经有很多自动的可以帮我们划分类别的聚类算法，但是在这里，人的专业知识和识别模式的能力似乎更加高效。

当然，最终的目的还是要利用数据创造价值，但是作为一个和数据打交道的人，切勿唯数据论，首先很多东西根本是不能用数据来衡量的，其次，即使有数据，但这些数据自身就存在偏差，在这样的数据基础上作出的分析结果，很可能会有南辕北辙的效果。

互联网环境下的数据分析

互联网经济的发展，使互联网在人们生活中的位置越来越重要，人们利用互联网沟通、购物、浏览新闻，收发邮件。而人们在互联网上的这些活动的副作用就是产生了大量的数据，人们沟通的内容会被记录和存档，购买的什么物品也会存储于数据库中，浏览过哪些新闻，收发过哪些邮件会被如实地记录下来。

这些互联网用户产生的数据有什么样的价值？首先何为价值，如果一个东西有价值，这个东西肯定可以提高社会的运行效率。而用数据来给用户提供价值的案例已经涌现出很多了，大家最能体会得到的应该就是电商网站的推荐系统了。推荐系统利用用户的搜索、浏览和购买记录数据，经过一种叫做协同过滤的算法处理，以提供给用户可能感兴趣的其它商品，这在一定意义上是一种双赢的效果，用户通过这个系统可以更容易地看到自己想要的商品，而电商可以通过这个系统提升销售额，从更深的层次上看，这提升商品购买这个过程的效率，从而降低了成本。

另外一个需要关注的问题的就是对互联网用户数据使用的道德问题，这个问题是关于用户隐私的。用户的行为产生了大量的数据，利用这些数据就可以从某种程度上复原用户在互联网上的某些行为。有些数据是用户愿意公开和分享的，比如在豆瓣读书中记录了自己读过和想要读的书籍，一般来说，用户并不介意其他人知晓这些信息，甚至希望通过分享这些信息，让推荐系统为自己帮忙找到志同道合的朋友；在另外一种情形下，用户可能经常从某电商网站购买商品，用户绝对不能容忍自己的购买记录被公之于众，这种情况的发生会给用户一种被偷窥的感觉。但是，如何在数据隐私和数据价值之间作出权衡呢？多种技术和方法可以对用户数据做模糊处理，比如在对整体用户数据进行分析的时候，对用户ID做不可逆加密处理，然后在这些经过处理过的用户数据上进行各种用户数据的分析，从而减少了用户数据泄露的风险。

第三方解决方案的方向

目前，类似于AWS这样的云服务厂商，为应用开发、数据存储和计算、数据挖掘提供了众多的便利服务，所以对于大数据的存储和计算本身的技术门槛已经很低，因此，想要通过技术壁垒来建立第三方数据服务公司的竞争力已经不太现实了，而是需要找到其它的努力方向。

数据分析本身是一个循序渐进的过程，在不同的行业中都有一套自己的看待数据、分析数据的方法论。所以想要做一个真正优秀的和有竞争力的第三方数据服务平台，必须将定义方法论的的方法抽象出来，从某种角度来说就是将知识的定义方法抽象出来，使知识成为一种可以形式化并且可以随时间演化的实体，并通过一定的机制使知识的演化过程保持健康，这样随着这个知识体系的不断扩张，这个系统本身的竞争力也会随之增强，并释放出巨大的价值。其中最大的价值就是，通过这个知识体系可以从某种程度上统一某些行业的“数据度量衡”。

技术方向（仁者见仁）

数据收集方案
1. Apache NiFi + Kafka Cluster
2. Django + Kafka Cluster
3. Python Scrapy爬虫方案抓取互联网上的相关数据
数据存储方案
1. AWS S3
2. HDFS
数据计算方案
1. AWS EMR
2. Hive
3. Presto
4. Spark (SQL/Streaming)
数据挖掘方案
1. Spark MLLib
2. scikit-learn
3. pandas
知识图谱方案
1. Neo4j
2. py2neo构建知识图谱管理系统
报表引擎方案
1. Python解析并按照知识图谱方案实时或者批量地处理数据
数据可视化方案
1. Highcharts
2. D3js

知识的抽象方法是整个系统的核心，而选取合适的技术仅仅是为了方便这个抽象的实现。

猜你喜欢