版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/chuan403082010/article/details/84134752
IDE: Pycharm Visual Studio 编译器: Vim sublime Text等 一、大数据时代 数据获取的方式: 1.企业生产的用户数据:大型互联网公司有海量的用户,所有他们积累数据有天然优质 有数据意识的中小型企业, 也开始积累的数据 2.数据管理咨询公司: 这样的公司有很庞大的数据采集团队,一般会通过市场调研,问卷调查,固定的样本检测 和各行各业的公司进行合作/专家对话 3.政府/机构提供的公开数据:通过各地政府统计上报的数据进行合并 机构都是权威的第三方平台 4.第三方数据平台购买数据: 贵阳大数据交易所 通过各个数据平台来购买各行各业的数据 5.爬虫爬取数据:如果市场无所需要的数据 招/做 从互联网上爬虫 百度指数 阿里指数 腾讯指数 新浪指数 政府机构 国家数据 艾瑞资讯 麦肯锡 艾思哲 二、什么是爬虫? 爬虫:抓取网页数据的程序 爬虫怎么抓取网页数据? 网页三大特征 1.每个网页都有自己的URL(统一资源定位符) 来进行定位 2.网页都是用HTML(超文本标记语言) 来描述页面信息 3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据 三、爬虫的设计思路: 1.首先确定需要爬取的网页URL地址 2.通过HTTP/HTTP协议来获取对应的HTML页面 3.提取HTML页面里有用的数据 a. 如果需要的数据,就保存起来 b.如果是页面里的其他URL,那就继续执行第二步 四、为什么选择Python做爬虫 可以做爬虫的语言有很多,如PHP Java C/C++、Python等 PHP 虽然是世界上最好的语言,但是他天生不是干这个,而且对多线程、异步支持不够好,并发处理能力弱,爬虫是工具性程序,对速度和效率要求比较高 Java 的网络爬虫生态圈也很完善,是Python爬虫最大的对手,但是Java语言本身很笨重,代码量很大,重构成本比较高,任何修改都会导致代码的大量变动, 爬虫经常需要修改部分采集代码 C/C++运行效率和性能几乎最强,但是学习成本很高.代码成型比较慢,能用C/C++做爬虫,只能说是能力的表现,但是不是正确的选择 Python 语法优美、代码简洁、开发效率高、支持的模块多、相关的HTTP请求模块和HTTP解析模块非常丰富,还有强大的爬虫框架Scrapy, 以及成熟高效的Scrapy redis分布式策略.而且,调用其他接口也非常方便(胶水语言)