豆瓣读书排名—简单爬取第一页 - 代码天地

豆瓣读书排名—简单爬取第一页

其他 2018-05-27 01:54:25 阅读次数: 0

import urllib.request


#发送请求，获取响应
class A():
    def get_html(self):
        response = urllib.request.urlopen(url)
        html = response.read().decode('utf-8')
        return html



    #写入文件
    def write_html(html):
        with open('book_rank.txt', 'a', encoding = 'utf-8') as br:
            br.write(html)
   
        
#运行函数
if __name__ == '__main__':
    #豆瓣书评URL
    perpage = 0
    url = 'https://www.douban.com/doulist/1264675/?start=' + str(perpage) + '&sort=seq&sub_type='
    html = A.get_html(url)
    A.write_html(html)

本文是一个比较简单的豆瓣读书排名的第一页内容爬取。后续j继续提高，要进行多页爬取，及内容提取。

编码问题：

python3默认编码为unicode，由str类型进行表示。二进制数据使用byte类型表示。在实际应用中经常需要将两者进行互转

注意：字符串通过编码转换为字节码，字节码通过解码转换为字符串

str--->(encode)--->bytes，bytes--->(decode)--->str

猜你喜欢

转载自blog.csdn.net/weixin_41512727/article/details/79511353

豆瓣读书排名—简单爬取第一页

爬取---Books to Scrape（第一页所有书名和价格）

python爬虫：爬取豌豆荚APP第一页数据信息（selenium）

python爬虫：爬取豌豆荚APP第一页数据信息（requests）

golang多任务爬虫：爬取爆照吧每个帖子第一页所有的照片

开篇第一页

第一页数组学习

LeetCode 第一页题目

网站的关键词排名怎么优化才能够上第一页？

python爬虫：爬取豌豆荚APP第一页数据信息（爬虫三部曲）

MyBatisPagingItemReader只能读取第一页

无字天书之Python爬虫第一页

word只在第一页插入页眉

C语言第一页笔记

攻防世界 Pwn 进阶第一页

PageHelper分页失效，只能查出第一页

简单的爬取百度图片，一页

printContent 点击打印多页时第一页之前出现白页

fastreport 第一页有抬头第二页就没了

(vue ) 解决当点击详情后回退当前页刷新到第一页

antd rowSelection 第二页多选的时候选择的是第一页的数据

php分页数据最后一页继续追加第一页数据

python爬虫第四天(爬取贴吧第一页，标题，作者，时间，链接，一楼内容只含文本信息)第一版(不用函数，不用类)，只能爬取指定网页

如何建word文档目录时，自动生成的目录正文从第一页开始

Ext4.2 查询后选择第一页

jquery滚动事件java实现分页，默认为0第一页

【java设计模式学习笔记（第一页）】初识设计模式

word自动生成目录如何从正文第一页开始

第一页： MySQL字符集创建及CRUD操作

boostrap-table 搜索无法回到第一页

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)