00 爬虫概念

IDE: Pycharm Visual Studio
编译器: Vim sublime Text等

一、大数据时代 数据获取的方式:
1.企业生产的用户数据:大型互联网公司有海量的用户,所有他们积累数据有天然优质
  有数据意识的中小型企业, 也开始积累的数据
2.数据管理咨询公司: 这样的公司有很庞大的数据采集团队,一般会通过市场调研,问卷调查,固定的样本检测 和各行各业的公司进行合作/专家对话
3.政府/机构提供的公开数据:通过各地政府统计上报的数据进行合并 机构都是权威的第三方平台
4.第三方数据平台购买数据: 贵阳大数据交易所 通过各个数据平台来购买各行各业的数据
5.爬虫爬取数据:如果市场无所需要的数据 招/做 从互联网上爬虫

百度指数 阿里指数 腾讯指数 新浪指数 政府机构 国家数据 艾瑞资讯 麦肯锡 艾思哲


二、什么是爬虫?
爬虫:抓取网页数据的程序

爬虫怎么抓取网页数据?
网页三大特征
1.每个网页都有自己的URL(统一资源定位符) 来进行定位
2.网页都是用HTML(超文本标记语言) 来描述页面信息
3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据


三、爬虫的设计思路:
1.首先确定需要爬取的网页URL地址
2.通过HTTP/HTTP协议来获取对应的HTML页面
3.提取HTML页面里有用的数据
 a. 如果需要的数据,就保存起来
 b.如果是页面里的其他URL,那就继续执行第二步


 四、为什么选择Python做爬虫
 可以做爬虫的语言有很多,如PHP Java C/C++、Python等
    PHP 虽然是世界上最好的语言,但是他天生不是干这个,而且对多线程、异步支持不够好,并发处理能力弱,爬虫是工具性程序,对速度和效率要求比较高
    Java 的网络爬虫生态圈也很完善,是Python爬虫最大的对手,但是Java语言本身很笨重,代码量很大,重构成本比较高,任何修改都会导致代码的大量变动,
         爬虫经常需要修改部分采集代码
    C/C++运行效率和性能几乎最强,但是学习成本很高.代码成型比较慢,能用C/C++做爬虫,只能说是能力的表现,但是不是正确的选择
    Python 语法优美、代码简洁、开发效率高、支持的模块多、相关的HTTP请求模块和HTTP解析模块非常丰富,还有强大的爬虫框架Scrapy,
    以及成熟高效的Scrapy redis分布式策略.而且,调用其他接口也非常方便(胶水语言)
猜你喜欢