寒假日报day18 - 代码天地

寒假日报day18

其他 2020-02-11 21:50:46 阅读次数: 0

enmmm，今天困在了如何对知乎进行下拉操作上了，虽然可以用selenium操作，但我还不是很熟悉这个东西。。。。

首先啊，根据要求创建了数据库

首先，在知乎等网站进行初步爬取，

分析知乎的网页结构：

就是这里了，下面来整理具体位置：page.getHtml().xpath("//div[@class=Card]/div[@class=List-item]/div[@class=ContentItem]/h2/a/@href")

得到初步想要的结果：

经检验页面是对的。

下一步就是模拟下拉刷新，并获取更多的页面。（这一步好难啊。。。。正在查找相关视频和前辈的经验，但奈何用webmagic写爬虫的人实在是太稀缺了，我都想放弃改写python了。）

在下一步是进入详细页面对页面进行分词解析，

首先要把页面的内容下载下来（这一步是比较简单，但还没写）

其次进行数据分析，就是自动分词，以及这些;

猜你喜欢

转载自www.cnblogs.com/msdog/p/12296865.html

寒假日报day18

寒假day18

寒假日报day02

寒假日报day03

寒假日报day01

寒假日报day04

寒假日报day5

寒假日报day7

寒假日报day6

寒假日报day19

寒假日报day22

寒假日报day14

寒假日报day15

寒假日报day23

寒假日报day20

寒假日报day21

暑假日报-18

day18

python day18

7.25 day18

day18 html

day18反射

day18 包

day18总结

day18 作业

day18 总结

5.22 Day18

AcWing寒假每日一题——Day18整数集合的划分

18-19寒假日记

Day18 高阶函数

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)