版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84325560
缺点:1爬了一个网站好几次以后不能再进行爬取。没有解决这个问题 2在写入数据的时候还是存在很大问题。以后多加练习这个文件的保存的相关工作
import re import urllib.request def function(): """需求:1 https://read.douban.com/把所有的出版社的信息提取出来 过滤掉无关信息既可以 2 保存到本地文件的信息 """ #爬取得网站信息 html="http://read.douban.com/kind/505" data=urllib.request.urlopen(html).read() data=data.decode('utf-8') #爬取得正则表达式 bookname='<a href="/ebook/\d*/">(.*?)</a>'#找到书名 bookauthor='<a href="/author/\d*/" class="author-item">(.*?)</a>'#找到作者名字 booktype='<span itemprop="genre">(.*?)</span>'#小说的类型 #爬去的信息数据 bookname=re.compile(bookname).findall(data) bookauthor=re.compile(bookauthor).findall(data) booktype=re.compile(booktype).findall(data) #打印在控制台 print("bookname:",bookname) print("bookauthor",bookauthor) print("booktype",booktype) #将爬取的数据写入文件中 txtName = "codingWord.txt" file = open('./作业二的数据.txt', "w",encoding="utf-8") file.write(str(bookname)+"\n"+str(bookauthor)+"\n"+str(booktype)) file.close() file.close() return if __name__ == '__main__': function()