Python网络爬虫与信息提取(一)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hxxjxw/article/details/89850144

相关基础知识和概念

掌握定向网络数据爬取和网页解析能力
The Website is the API

  • Requests库:自动爬取HTML页面,自动网络请求提交
  • robots.txt:网络爬虫排除标准
  • Beautiful Soup库:解析HTML页面,提取相关信息
  • Re库:正则表达式库。通过正则表达式的使用可以在页面中提取我们最关心的关键信息
  • Scrapy:专业网络爬虫的框架

python开发工具的介绍

①IDLE(包含交互式和文件式两种方式)

②Sublime Text

几乎所有专业的程序员,都是用类似Sublime Text这一类的编辑工具而不是使用集成的开发工具

因为专业程序员的编写代码质量相对较高,对调试的需求相对较低,而对编写代码过程的体验需求较高

③Wing

在编写几千行甚至上万行的大型应用中用得十分普遍

④PyCharm

PyCharm是所有这类集成工具中,相对简单和集成度很高的,它非常适合编写较大和较复杂规模的程序

⑤Canopy(科学计算领域)

收费的,价格还很高

是开发科学计算和数据分析领域里面集成度很高并且使用相对方便的一个第三方IDE

猜你喜欢

转载自blog.csdn.net/hxxjxw/article/details/89850144
今日推荐