数据挖掘:(一)数据获取

  • 数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。
  • Python 的胶水特性:Python 可以粘合其它语言代码段。

一、数据获取手段

 1)数据仓库

  • 将所有业务数据汇总处理,构成数据仓库(DW);
  • 特点:
  1. 全部事实的记录(必须是全面的、完备的、尽可能详细的);
  2. 可以方便的以不同维度抽取和整理数据(数据是拿来用的,一般一个特定的场景不会使用全部的数据,数据仓库非常丰富,必须根据不同的应用调取相应的数据,这些被抽取和整理的数据称为数据集市-DW);
  1、数据库 VS 仓库
  1.  数据库面向业务存储,需要保证高频繁、快速读写、数据结构精简,主要为用户提供精致的体验;
  2. 仓库面向主题存储,是根据一个个主题进行存储的;(主题:较高层次上对分析对象数据的一个完整并且一直的描述;如,一次购买行为,包含时间、商品、金额、用户等各个维度的信息)
  3. 数据库针对应用(为用户提供数据上的支持与服务,此过程称为“OLTP”——联机事务处理),仓库针对分析(仓库进行全面和详细的记录,一般就是用来分析的,此过程称为“OLAP”——联机分析处理);
  4. 数据库组织规范,仓库可能冗余,相对变化大,数据量大(仓库几乎每时每刻都在记录);

 2)监测与抓取

  • 监测:利用设备和算法直接获取数据;(如传感器、网络等)
  • 抓取:直接解析网页、接口、文件的信息;
  • Python 中的常用抓取工具:urllib、urllib2、requests、scrapy;
  • Python 中的常用解析工具:PhantomJS(渲染数据)、beautifulSoup(解析路径)、Xpath(lxml,解析路径)

  3)填写、埋点、日志

  • 填写:用户填写的信息;(如注册信息)
  • 埋点:在APP或网页应用中根据特定的流程,收集一定的信息,用来跟中APP和网页的使用情况,以便后来进一步优化产品或进行运营支持;(比较常见的记录项:访问、访客、停留时间、页面查看、跳出率)(一般可以分为两种:页面统计、统计操作行为)
  • 日志:
  1. 日志和数据仓库有共同的作用,日志更加精简,也可以在出现故障时帮助定位问题;
  2. 以文件形式记录数据,一般也需要统计到仓库中,进行统一的分析;
  3. 日志分前端日志和后端日志:

    # 前端日志,网页或者APP中记录的信息,前端日志需要传输到后端才能被记录;

    # 后端日志,服务器里的日志,可以直接进行处理;

 4)计算
  • 有些属性不能直接获取,必须通过计算得到,如投入产出比;

二、数据学习网站

猜你喜欢

转载自www.cnblogs.com/volcao/p/10486051.html