其实python非常适合初学者入门。相比较其他不少主流编程语言，有更好的可读性，因此上手相对容易。自带的各种模块加上丰

富的第三方模块，免去了很多“重复造轮子”的工作，可以更快地写出东西。配置开发环境也不是很复杂，mac和linux都内置了

python。另外据我所知，不少学校也开始使用python来教授程序设计课程。

我就是完全通过网上资源自学python的。欢迎各位到来Python学习群：301056069 一起讨论视频分享学习。

从在校时候用python接活赚零花钱，到在创业公司用python开发商业网站和游戏后台。所有遇到的问题，几乎都可以从互联网上

的公开资源找到答案。

关于自学python，个人最大的3点经验：

找一本浅显易懂，例程比较好的教程，从头到尾看下去。不要看很多本，专注于一本。把里面的例程都手打一遍，搞懂为
什么。我当时看的是《简明python教程》，不过这本书不是非常适合零基础初学者。零基础推荐《与孩子一起学编程》，
或者看 Python入门。

去找一个实际项目练手。我当时是因为要做一个网站，不得已要学python。这种条件下的效果比你平时学一门新语言要好
很多。所以最好是要有真实的项目做。可以找几个同学一起做个网站之类。注意，真实项目不一定非要是商业项目，你写一个只是自己会用的博客网站也是真实项目，关键是要核心功能完整。
最好能找到一个已经会python的人。问他一点学习规划的建议，然后在遇到卡壳的地方找他指点。这样会事半功倍。但是，要学会搜索，学会如何更好地提问。没人愿意帮你写作业或是回答“一搜便知”的问题。

然而，别人的经验未必能完全复制。比如我没有说的是，在自学python之前，我已在学校系统学习过其他的编程语言。

对于完全没有编程经验的初学者，在学习python的时候，面对的不仅仅是python这门语言，还需要面临“编程”的一些普遍问题，比如：

从零开始，不知道从何入手，找了本编程教材发现第二章开始就看不懂了
缺少计算机基础知识，被一些教程略过的“常识性”问题卡住
遇到问题不知道怎么寻找解决方案
看懂语法之后不知道拿来做什么，学完一阵子就又忘了
缺少数据结构、设计模式等编程基础知识，只能写出小的程序片段

所以除了前面说的3点经验，给初学编程者的额外建议：

首先要有信心。虽然可能你看了几个小时也没在屏幕上打出一个三角形，或者压根儿就没能把程序运行起来。但相信我，几乎所有程序员一开始都是这么折腾过来的。
选择合适的教程。有些书很经典，但未必适合你，可能你写了上万行代码之后再看它会比较好。
写代码，然后写更多的代码。光看教程，编不出程序。从书上的例程开始写，再写小程序片段，然后写完整的项目。
除了学习编程语言，也兼顾补一点计算机基础，和英语。
不但要学写代码，还要学会看代码，更要会调试代码。读懂你自己程序的报错信息。再去找些github上的程序，读懂别人的代码。

这是一份简单入门的教程！

利用Python爬虫我们可以获取大量有价值的数据：

1.爬取数据，进行市场调研和商业分析

爬取知乎优质答案，筛选各话题下最优质的内容；抓取房产网站买卖信息，分析房价变化趋势、做不同区域的房价分析；爬取招聘网站职位信息，分析各行业人才需求情况及薪资水平。

2.作为机器学习、数据挖掘的原始数据

比如你要做一个推荐系统，那么你可以去爬取更多维度的数据，做出更好的模型。

3.爬取优质的资源：图片、文本、视频

爬取商品的评论以及各种图片网站，获得图片资源以及评论文本数据。

掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现。

首先我们来了解爬虫的基本原理及过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

简单来说，我们向服务器发送请求后，会得到返回的页面，通过解析页面之后，我们可以抽取我们想要的那部分信息，并存储在指定的文档或数据库中。

在这部分你可以简单了解 HTTP 协议及网页基础知识，比如 POSTGET、HTML、CSS、JS，简单了解即可，不需要系统学习。

学习 Python 包并实现基本的爬虫过程

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议你从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。掌握之后，你会发现爬虫的基本套路都差不多，一般的静态网站根本不在话下，小猪、豆瓣、糗事百科、腾讯新闻等基本上都可以上手了。

存数据

首先，我们来说存数据，是因为在初期学习的时候，接触的少，也不需要太过于关注，随着学习的慢慢深入，我们需要保存大批量的数据的时候，就需要去学习数据库的相关知识了！

初期，我们抓到需要的内容后，只需要保存到本地，无非保存到文档、表格（excel）等等几个方法，这里大家只需要掌握with语句就基本可以保证需求了。大概是这样的：

with open（路径以及文件名，保存模式） as f：

f.write（数据）#如果是文本可直接写入，如果是其他文件，数据为二进制模式更好

当然保存到excel表格或者word文档需要用到 xlwt库（excel）、python-docx库（word），这个在网上很多，大家可以自行去学习。

取数据

说了这么多，我们来说说主题。怎么来抓取我们想要的数据呢？我们一步步的来！

一般所谓的取网页内容，指的是通过Python脚本实现访问某个URL地址(请求数据)，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。然后通过解析规则（页面解析），分析出我们需要的数据并取（内容匹配）出来。

在python中实现爬虫非常方便，有大量的库可以满足我们的需求，比如先用requests库取一个url（网页）的源码

import requests#导入库

url = '你的目标网址'

response = requests.get(url) #请求数据

print(response.text) #打印出数据的文本内容

这几行代码就可以获得网页的源代码，但是有时候这里面会有乱码，为什么呢？

因为中文网站中包含中文，而终端不支持gbk编码，所以我们在打印时需要把中文从gbk格式转为终端支持的编码，一般为utf-8编码。

所以我们在打印response之前，需要对它进行编码的指定（我们可以直接指定代码显示的编码格式为网页本身的编码格式，比如utf-8，网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定）。加上一行即可。

response.encode = 'utf-8' #指定编码格式

至此，我们已经获取了网页的源代码，接下来就是在乱七八糟的源代码中找到我们需要的内容，这里就需要用到各种匹配方式了，常用的几种方式有：正则表达式（re库），bs4（Beautifulsoup4库），xpath（lxml库）！

建议大家从正则开始学习，最后一定要看看xpath，这个在爬虫框架scrapy中用的很多！

通过各种匹配方式找到我们的内容后（注意：一般匹配出来的是列表），就到了上面所说的存数据的阶段了，这就完成了一个简单的爬虫！

当然了，在我们具体写代码的时候，会发现很多上面没有说到的内容，比如

获取源代码的时候遇到反爬，根本获取不到数据
有的网站需要登录后才可以拿到内容
遇到验证码
获取到内容后写入文件出错
怎样来设计循环，获取大批量的内容甚至整站爬虫

剩下的我们再来慢慢的研究。

总结

Python爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：301056069 一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长，掌握Python核心技术，才是掌握真正的价值所在。

你是如何自学 Python 的？阿里350k大神带你入门到精通Python

这是一份简单入门的教程！

存数据

取数据

总结

猜你喜欢