python爬虫实例——阿里云云栖社区博文 - 代码天地

python爬虫实例——阿里云云栖社区博文

其他 2020-02-09 20:50:50 阅读次数: 0

爬取这个网站：https://yq.aliyun.com/articles/

# -*- coding: utf-8 -*-

import requests
import re
import time
from parsel import Selector

key = "Python"
url = "https://yq.aliyun.com/search/articles/"

hds = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}
response = requests.get(url, headers=hds, params={"q":key})
response.encoding = response.apparent_encoding
data = response.text

pat1= '<div class="_search-info">找到(.*?)条关于'
alline = re.compile(pat1, re.S).findall(data)[0]
allpage = int(alline) // 15 + 1
#print(allpage)
for i in range(0, int(allpage)):
    print("----正在爬第" + str(i + 1) + "页------")
    index = str(i + 1)
    getdata = {"q" : key ,
               "p" : index,
               }
    data = requests.get(url, params=getdata).text
#    pat_url = '<div class="media-body text-overflow">.*?<a href="(.*?)">'
#    articles = re.compile(pat_url, re.S).findall(data)
    sel = Selector(data)
    articles = sel.xpath("//div[@class='media-body text-overflow']/a/@href").getall()
    for j in articles:
        thisurl = "https://yq.aliyun.com" + j
#        print(thisurl)
        thisdata = requests.get(thisurl).text
        title = Selector(thisdata).xpath("//p[@class='hiddenTitle']/text()").get()
        print(title)
#        pat_content = Selector(thisdata).xpath("//div[@class='content-detail unsafe markdown-body']/text()").get()
        pat_content = '<div class="content-detail unsafe markdown-body">(.*)</div>'
        content = re.compile(pat_content, re.S).findall(thisdata)[0]
        print(content)
        with open('./aliyun/' + str(title) + '.html', 'w', encoding='utf8') as f:
            f.write(title + "<br /><br />" + content)

猜你喜欢

转载自www.cnblogs.com/douzujun/p/12288591.html

python爬虫实例——阿里云云栖社区博文

Python小爬虫爬取云栖社区

年终盘点：2018云栖社区15大最具影响力技术团队（附100+干货博文）

年度盘点：2018云栖社区15大影响力技术团队（附100+干货博文）

canvas实现阿里云云栖大会炫酷动画效果

云栖社区

Python爬虫入门实战5：给CSDN博文点赞

爬虫测试专用博文

【阿里云云栖社区】MySQL性能优化实战

SpringBoot使用分布式锁-------来自阿里云栖社区

2019阿里面试题-云栖社区

Java开发手册-(转自阿里云栖社区)

13个Cat命令管理文件实例(援引云栖社区)

Python爬虫入门结束篇：备份CSDN博主博文及分析

Python优秀博文

python爬博文

Python博文列表

Python主题博文

阿里云云小站服务器，修改实例密码

测试 - 云栖社区

云栖社区地址

爬虫续记 ----[博文搬移]

基于selenium的twitter博文评论爬虫

转发博文——阿里云建站

Python3.6蜘蛛爬虫系列教程入门自学详细教程博文收集汇总整理

一篇非常棒的安装Python及爬虫入门博文！

一篇博文让你了解，Python爬虫库的代理设置方法！

Python爬虫入门实战4：获取CSDN博文评论及添加新评论

云栖回顾｜首届阿里云云原生生态合作伙伴大会：与伙伴能力融合，加速企业数字创新

【Python 微博爬虫】Python 实现微博爬虫

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)