清明节悼词的爬虫

一次艰难的大作业,不知道搞什么,索性爬取上回词云的素材内容,这次遇到requests库死活下载不下来,真的浪费很多时间,但所幸在教员帮助下在时间截止前requests库成功下载,但是水平有限,时间也所剩不多,没能够更好的完善作业,有些抱歉。

1.参考网址:http://www.hxnews.com/news/gn/shxw/202004/03/1880865.shtml

2.作业源代码

import requests
def A():
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding='utf-8'
        return r.text
    except:
        return ""
url='http://www.hxnews.com/news/gn/shxw/202004/03/1880865.shtml'
print(A())

3.作业效果:

4.遇到的困难

第一个就是requests库下载不下来,和电脑也有一定关系。然后在爬虫过程中有的网址爬不出来,后来得知是他具有反爬虫的特点,如果想爬虫的话,要遵守他的规则。

最后一个技术问题是不太熟练bs4,想要把正文提取出来但是未能完成。

猜你喜欢

转载自www.cnblogs.com/chenshuo1/p/12824734.html