python爬虫实例--tencent网站招聘信息 - 代码天地

python爬虫实例--tencent网站招聘信息

其他 2020-10-15 23:49:35 阅读次数: 0

学习python爬虫一段时间了，想做个实例巩固一下所学的知识。

爬取对象：腾讯招聘网站

不知道是不是被爬的多了，这个网页变动挺大的。

（网上搜到的那些爬虫代码已经不好使了，๑乛◡乛๑）

代码如下：

import urllib
from urllib import request
import re
import json

# 构造请求头信息
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '
                        'x64; rv:77.0) Gecko/20100101 Firefox/77.0'}
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?pageSize=10&language=zh-cn&area=cn&'

pat1 = re.compile('"PostId":"(.*?)"')
x = 0
# 爬取1--3页的招聘信息
for i in range(1, 4):
    kw = {'pageIndex': i}
    kwd = urllib.parse.urlencode(kw)
    url_use = url + kwd
    req = urllib.request.Request(url_use, headers=header)
    data = urllib.request.urlopen(req).read().decode()
    # 使用正则表达式获取职位ID号
    postId = re.findall(pat1, str(data))
    for j in postId:
        # 访问职位信息详情页面
        url_new = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?postId=%s' % j
        req_new = urllib.request.Request(url_new, headers=header)
        data_new = urllib.request.urlopen(req_new).read().decode()   # 返回的data_new是字符串类型str
        # 将字符串转换成字典
        data_json = json.loads(data_new)
        # 获取职位信息
        x += 1
        print('------------第%s个职位信息------------' % x)
        print('职位名称：'+data_json['Data']['RecruitPostName'])
        print('工作职责：\n'+data_json['Data']['Responsibility'])
        print('工作要求：\n'+data_json['Data']['Requirement'])

执行结果太长，附上部分执行结果

注：文章内容主要是记录学习过程中遇到的一些问题，以及解决方法。留个记录，同时分享给有需要的人。如有不足之处，欢迎指正，谢谢！

猜你喜欢

转载自blog.csdn.net/elsa_yxy1984/article/details/107041806

python爬虫实例--tencent网站招聘信息

Python 爬虫招聘信息

python爬虫--招聘信息

Python爬虫(爬取招聘网站信息)

Python爬虫获取招聘网站职位信息

Python爬虫某招聘网站的岗位信息

【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

【python爬虫自学】（scrapy实例）----爬取腾讯社会招聘职位信息

一个简单Python爬虫实例（爬取的是前程无忧网的部分招聘信息）

python爬虫3——爬取腾讯招聘全部招聘信息

入坑爬虫(六)某招聘网站信息采集

腾讯招聘信息爬虫

python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例

Python爬虫之-智联招聘网站

Python爬虫爬取51job招聘网站

python爬虫--scrapy爬取腾讯招聘网站

python阿里巴巴招聘网站爬虫

Python爬虫：爬取招聘网站系列 - 前程无忧

Python3获取拉勾网招聘信息的方法实例

python3爬虫 -----爬取职位招聘信息-------from腾讯社会招聘

Python爬虫：爬取网站电影信息

爬虫一：python获取网站信息

爬虫框架之Scrapy——爬取某招聘信息网站

【爬虫系列】使用Selenium模块采集招聘网站的职位信息（1）

python抓取招聘信息

Python爬虫学习笔记(实例：解决网站对爬虫的审查)

爬取tencent职位招聘的

Python爬虫学习笔记(实例：股票信息定向爬虫及优化)

利用Python爬虫爬取分析大型招聘网站Python岗

模仿pyspider写招聘网站爬虫

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)