寒假日报day18

enmmm,今天困在了如何对知乎进行下拉操作上了,虽然可以用selenium操作,但我还不是很熟悉这个东西。。。。

首先啊,根据要求创建了数据库

 

首先,在知乎等网站进行初步爬取,

分析知乎的网页结构:

 

就是这里了,下面来整理具体位置:page.getHtml().xpath("//div[@class=Card]/div[@class=List-item]/div[@class=ContentItem]/h2/a/@href")

 

得到初步想要的结果:

 

经检验页面是对的。

下一步就是模拟下拉刷新,并获取更多的页面。(这一步好难啊。。。。正在查找相关视频和前辈的经验,但奈何用webmagic写爬虫的人实在是太稀缺了,我都想放弃改写python了。)

在下一步是进入详细页面对页面进行分词解析,

首先要把页面的内容下载下来(这一步是比较简单,但还没写)

其次进行数据分析,就是自动分词,以及这些;

猜你喜欢

转载自www.cnblogs.com/msdog/p/12296865.html