python第三方库bs4库实例之爬取古诗词网上诗歌 - 代码天地

python第三方库bs4库实例之爬取古诗词网上诗歌

其他 2019-06-11 04:28:05 阅读次数: 0

版权声明：版权声明：本文为博主原创文章，未经博主允许不得转载。个人网站：http://laiczhang.com。 https://blog.csdn.net/qq_44621510/article/details/90740841

# 使用bs4提取网页，先利用find_all解析
import requests
from bs4 import BeautifulSoup
DATA = []
def getHTMLtext(url,headers,timeout=10):
    try :
        resp = requests.get(url,headers=headers,timeout=timeout)
        resp.raise_for_status
        resp.encoding = 'utf-8'
        return resp.text
    except:
        return ''
def bs4_find_all_Parser(text):
    soup = BeautifulSoup(text,'lxml')
    sons = soup.find_all('div',class_ = "sons")[:10] #返回一个<class 'bs4.element.ResultSet'>，每一个元素都是Tag类型
    # 注意：上一步里面返回了一些其他的元素，我们可以提取出前面的10项，那是我们需要用到的
    for son in sons:
        name = son.find('b').string
        print(name)
        dynasty_author = son.find('p',class_="source").get_text()
        print(dynasty_author)
        content = son.find('div',class_="contson").get_text().strip()
        print(content)
        like = son.find_all('span')[1].string.strip()
        print('点赞数:'+like)
        print('\n'+'*'*30+'\n')
         
  
if __name__ == '__main__':
        url = 'https://www.gushiwen.org/default_1.aspx'
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
        text = getHTMLtext(url,headers)
        if text == '':
            print('url: {} 访问失败'.format(url))
        else:
            bs4_find_all_Parser(text)

猜你喜欢

转载自blog.csdn.net/qq_44621510/article/details/90740841

python第三方库bs4库实例之爬取古诗词网上诗歌

python第三方库re库实例之爬取古诗词网上诗歌

python第三方库xpath库实例之爬取古诗词网上诗歌

python结合第三方库bs4初次尝试爬取聚合数据api信息

python 爬取古诗词网

python第三方库requests和bs4库实例——简单的37行python爬虫刷CSDN博客阅读数

python爬虫爬取古诗词实例补充讲解之获取注释和译文

python——用pip安装第三方库bs4,，它可以使用其中的BeautifulSoup解析网页

用正则表达式爬取古诗词网

Python第三方库之openpyxl(4)

python3爬取古诗词

Python爬取古诗词写入Neo4j

利用python第三方selenium库爬取QS大学排名

python超好用的爬取金融数据的第三方库AkShare

python的一个强大的第三方库Parsel,里面包含xpath,bs4,re等三种数据提取方式的一个整合的强大的库

安装爬虫第三方的组件，简单学习爬虫（requests,bs4)

Python之requests库和bs4库实例

python第三方库PrettyTable使用实例

正则表达式_爬取中国古诗词网与豆瓣热门图书

古诗词网爬虫实现

模拟登录古诗词网

Python：第三方库BeautifulSoup4

爬取古诗文网古诗词

每日爬虫练习：bs4库爬取诗词名句网的四大名著

python的第三方库

python 第三方库

python第三方库

Python第三方库之openpyxl(8)

Python第三方库之openpyxl(9)

Python第三方库之openpyxl(10)

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)