一次艰难的大作业,不知道搞什么,索性爬取上回词云的素材内容,这次遇到requests库死活下载不下来,真的浪费很多时间,但所幸在教员帮助下在时间截止前requests库成功下载,但是水平有限,时间也所剩不多,没能够更好的完善作业,有些抱歉。
1.参考网址:http://www.hxnews.com/news/gn/shxw/202004/03/1880865.shtml
2.作业源代码:
import requests
def A():
try:
r=requests.get(url)
r.raise_for_status()
r.encoding='utf-8'
return r.text
except:
return ""
url='http://www.hxnews.com/news/gn/shxw/202004/03/1880865.shtml'
print(A())
3.作业效果:
4.遇到的困难
第一个就是requests库下载不下来,和电脑也有一定关系。然后在爬虫过程中有的网址爬不出来,后来得知是他具有反爬虫的特点,如果想爬虫的话,要遵守他的规则。
最后一个技术问题是不太熟练bs4,想要把正文提取出来但是未能完成。