Python爬虫案例3：爬取房天下房价等各种信息 - 代码天地

Python爬虫案例3：爬取房天下房价等各种信息

其他 2018-10-30 17:46:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154981

爬取房天下网站，爬取的内容：

区域、小区名、总价、房型、面积、单价、朝向、楼层位置、装修情况、建筑时间、是否有电梯、产权类型、住宅类型、发布日期

信息保存：保存在csv中

数据结果：

640?wx_fmt=png&wxfrom=5&wx_lazy=1

1、先建立爬虫项目

1）进入目标目录：cd 目标目录

2）建立项目：scrapy startproject 爬虫项目名称

3）进入爬虫项目目录，cd 爬虫项目所在的文件夹

4）建立爬虫：scrapy genspider 爬虫名称网址

具体可参考豆瓣的爬虫博文。

2、编写爬虫程序

有五个注意和修改的地方：

1）编写spider程序，我的案例是spider的price.py的文件中

2）修改items.py

3）修改pipeline.py，并需要在settings.py中导入

4）编写运行爬虫的程序，我的是runspider.py

5）对应的修改settings.py：pipline类、设置DEPTH_LIMIT

完整的项目目录如下：

640?wx_fmt=png&wxfrom=5&wx_lazy=1

1）爬虫文件price.py的程序，如下：主要是注意跳转下一页的用法。

主要包含三个功能：

解析房子信息
如何找到具体每个房子的链接网址
如何跳转下一页，并控制爬取的页码
如何实现区域的跳转

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

2）修改item.py文件，注意需要在爬虫文件中导入items

640?wx_fmt=png

这个文件的item是可以优化的，具体可参考豆瓣的博文

3）修改pipelines.py文件，并需要在settings.py文件中启用。

注意红点的部分为截图不全，需要把所有的字段都列上，具体参考附加文件，这个点也是可以优化的，不用一个个字段写出。

640?wx_fmt=png

4）编写运行爬虫的程序，省得每次都去cmd命令栏运行，我的是runspider.py

640?wx_fmt=png

5）对应的修改settings.py：pipline类、设置DEPTH_LIMIT

pipeline类：

640?wx_fmt=png

设置下延迟下载秒数：

640?wx_fmt=png

设置DEPTH_LIMIT：我设置的是2层，不限制的话就爬取完，记得修改ip，以防止ip被封

640?wx_fmt=png

6）执行结果：

640?wx_fmt=png

程序链接：https://pan.baidu.com/s/1TkohEc7kH7AedopyvXfSLQ 密码：17o5

本文只是简单的实现功能，有一些地方需要细化修改，参考后续的案例博文。

猜你喜欢

转载自blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154981

Python爬虫案例3：爬取房天下房价等各种信息

Python爬虫实战(1)-爬取“房天下”租房信息(超详细)

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

python网络爬虫爬取房价信息

房天下新房信息爬取

python爬取房天下数据Demo

Python: 房天下小区数据爬取

Python爬虫案例4：爬取上海各区学校以及其对口学区房信息

爬虫实战——房天下新房信息爬取（selenium+Chrome）

Python爬虫爬取房天下数据-入MySql数据库

Python 使用selenium爬取房天下网站，房源动态信息

Python 使用selenium爬取房天下网站，新房房源详情信息

对于房天下租房信息进行爬取

爬虫——爬取贵阳房价（Python实现）

Python爬虫-爬取天气信息(3)

Python爬取Q房网全新楼盘房价信息，有钱人真的多

Python爬虫案例1：手把手教你爬取豆瓣TOP250电影各种信息

Python爬虫案例Demo——Boss直聘信息的爬取

Selenium+Python爬取房天下二手房数据

python 学习 - 爬虫入门练习爬取链家网二手房信息

python爬虫爬取链家二手房信息

python+scrapy爬虫（爬取链家的二手房信息）

python爬虫：找房助手V1.0-爬取58同城租房信息

python 爬虫：链家二手房信息爬取练习

Python爬虫-利用xpath解析爬取58二手房详细信息

【爬虫】链接二手房信息爬取

分享爬取链家地图找房房价数据的小爬虫

房天下二手房爬取

分布式scrapy+redis 爬取房天下租房信息

python3爬虫（1）爬取链家二手房

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)