爬取tencent职位招聘的 - 代码天地

爬取tencent职位招聘的

其他 2018-06-02 05:07:33 阅读次数: 0

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from TencentSpider.items import TencentspiderItem,TencentDetailItem

class TencentSpider(CrawlSpider):
name = 'tencent'
allowed_domains = ['hr.tencent.com'] # 如果指定，如果其他网站匹配到了下面的格式的话，就会去
# 别的网站去爬取
start_urls = ['https://hr.tencent.com/position.php?&start=0']
"""
LinkExtractor(allow='start=\d+')返回的是一个列表，Rule依次发送请求，并且继续跟进，调用指定函数去处理
"""
rules = [
# Rule(LinkExtractor(allow='start=\d+'), callback='parse_tencent', follow=True),
Rule(LinkExtractor(allow='position_detail.php'),callback='parse_info',follow=True)
]

def parse_tencent(self, response):
link_list = response.xpath("//tr[@class='even'] | //tr[@class='odd']") # 可以这样筛选
for each in link_list:
item = TencentspiderItem()
item['position_name'] = each.xpath("./td[1]/a/text()").extract()[0]
item['position_link'] = each.xpath("./td[1]/a/@href").extract()[0]
position_type = each.xpath("./td[2]/text()").extract()[0]
if not position_type:
position_type = "为空"
item['position_type'] = position_type
item['position_need'] = each.xpath("./td[3]/text()").extract()[0]
item['position_place'] = each.xpath("./td[4]/text()").extract()[0]
item['position_time'] = each.xpath("./td[5]/text()").extract()[0]
yield item

"""这个可以将本页面中的链接都取出来进去将数据爬下来"""
def parse_info(self,response):
"""可以将"""
item = TencentDetailItem()
item['position_name'] = response.xpath('//*[@id="sharetitle"]').extract()[0]

yield item

"""其他设置和其他文章没有太大的区别"""

猜你喜欢

转载自blog.csdn.net/chasejava/article/details/79520729

爬取tencent职位招聘的

爬取爱笔智能招聘职位

爬取爱笔智能招聘职位

python爬取腾讯招聘的职位

使用scrapy-crawlSpider 爬取tencent 招聘

用Python爬取拉钩网招聘职位信息

Python+selenium爬取智联招聘的职位信息

R语言爬取前程无忧网招聘职位

爬虫二：爬取智联招聘职位信息

pythton爬取智联招聘职位信息

python3爬虫 -----爬取职位招聘信息-------from腾讯社会招聘

爬取智联招聘（搜索含关键词职位）

python搭建简单爬虫框架，爬取猎聘网的招聘职位信息

给大家整理了一篇Python+selenium爬取智联招聘的职位信息

【python爬虫自学】（scrapy实例）----爬取腾讯社会招聘职位信息

python 爬虫如何通过selenium简单爬取boss直聘招聘职位信息

python+scrapy入门教程之爬取腾讯招聘职位信息

拉勾网‘数据分析师’职位招聘信息数据爬取

Python 爬取腾讯招聘职位详情 2019/12/4有效

爬虫实战——爬取腾讯招聘的职位信息（2020年2月2日）

拉钩招聘信息爬取-能自行进行职位选择与页数选择

【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

scrapy爬取python职位

（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页

[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com

爬取阿里招聘信息

爬取智联招聘

爬取腾讯招聘信息

腾讯招聘信息爬取

爬取招聘网站

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)