https://baike.baidu,com/view/? 方式尽可能遍历百科词条 - 代码天地

https://baike.baidu,com/view/? 方式尽可能遍历百科词条

其他 2019-07-01 18:21:31 阅读次数: 0

# -*- coding: utf-8 -*-
# @time : 2019/7/1  14:56
import requests
import time

baseUrl = 'http://baike.baidu.com/view/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
countToSleep = 300

writer = open("itemUrl.txt", "a+", encoding="utf8")   //存储可以访问的词条url
filedWriter = open("filedItemUrl.txt", "a+", encoding="utf8")     //存储由于百度服务端防爬策略而失败的 数字，最后再通过组装url进行采集
errorNumber = open("errorNumberItemUrl.txt", "a+", encoding="utf8")    //组装的url不存在
for i in range(1, 15500000):
    try:
        countToSleep -= 1
        if countToSleep > 0:
            response = requests.get(baseUrl + str(i), headers=headers)
            if 'error' in response.url:
                errorNumber.write(str(i) + '\n')
            else:
                writer.write(response.url + '\n')
                print("第" + str(i) + "个;当前url：" + response.url)
    except:
        filedWriter.write(str(i) + '\n')
        print("服务端断开连接，重新连接爬取...")
        time.sleep(4)
    finally:
        if not (countToSleep > 0):
            time.sleep(2)
            print("休息-------------------")
            countToSleep = 300

            writer.flush()
            errorNumber.flush()
            filedWriter.flush()

　　

猜你喜欢

转载自www.cnblogs.com/dhName/p/11115696.html

https://baike.baidu,com/view/? 方式尽可能遍历百科词条

怎么创建百科词条怎么做百科才可能通过

尽可能遍历对象而不是switch

百科词条创建：百科创建词条的规则及具体步骤！

为品牌建立百度百科词条

百度百科人物词条怎么创建，百科人物创建技巧

品牌百科词条怎么写？品牌百度百科创建干货

娱乐人物百科词条怎么做百度百科创建词条技巧

百度百科创建词条不通过的原因如何创建百科词条通过审核

维基百科词条编辑贡献可视化

ChineseWiki︱百万中文维基百科词条下载与整理

Transposition cipher 错位密码（维基百科词条）

人物百科词条创建容易通过审核？

尽可能的使用 NOT NULL

尽可能用const

代做百度百科多少钱如何创建百科词条

网站百科词条如何更新创建怎样做网站百度百科

创建百度百科有什么好处百科词条编辑原则是什么

百度百科创建更新优化方法编辑企业人物百科词条技巧

如何创建企业百度百科百科创建企业词条需要注意什么

如何创建品牌百科词条|品牌词怎么做百度百科

企业怎么能上百度百科词条，创建百科方法

百度百科编辑不了怎么办，如何创建百科词条能成功

哪些人能创建百度百科词条，创建百科有什么规则

新成立的品牌怎么创建百度百科词条，品牌创建百科怎么写

怎么让提交的百度百科词条通过，创建百科该用哪些参考资料

百度百科怎么修改词条容易通过审核百度百科词条修改规则

如何创建百度百科词条？教你如何在百度百科上创建个人专业词条

公司百度百科怎么创建词条容易通过百度怎么创建词条

怎么创建百度百科词条百度词条过不了怎么办

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)