爬虫第一步遇到的坑 - 代码天地

爬虫第一步遇到的坑

其他 2018-10-26 22:48:20 阅读次数: 0

最近，跟着一个视频来学习，视频上爬取36kr这个网站，我也跟着写了，感觉挺简单的，使用Jsoup很快就拿到页面上的文字。谁知再分析网页获得自己需要的数据的时候，只能获得一个根标签，里面什么也没有，第一次爬虫遇到这样的问题，顿时懵逼了。问了几个人之后，自己明白了这是因为我要抓取的页面数据，它是使用react来实现的，也就是通过javaScript的库渲染完成的。到此我基本知道了原因和接下来怎么抓取。

Jsoup不支持解析javaScript动态渲染的页面，在这里选取了HtmlUnit来解析。

首先到官网(HtmlUnit)上下载jar包。

看下HtmlUnit的解析过程：

final WebClient webClient=new WebClient();
webClient.getOptions().setCssEnabled(false);//关闭css
webClient.getOptions().setJavaScriptEnabled(true);//这个要为true,false依然获取不到
final HtmlPage page=webClient.getPage("https://36kr.com/");

HtmlDivision htmlDiv =page.querySelector("#app");//获取第一个div
System.out.println(htmlDiv.asXml());
webClient.close();

setJavaScriptEnabled(true)设置为true之后，运行的时候会出现一些警告信息。

猜你喜欢

转载自www.cnblogs.com/yangms/p/9859042.html

爬虫第一步遇到的坑

python爬虫，第一步

GO语言--入坑第一步

Python入坑第一步

ChatGPT做爬虫的第一步

python 的第一步

hadoop开发第一步

学习opengl第一步

python采集第一步

struts 第一步

Zookeeper迁移第一步

架构的第一步——业务

第一步域名

Redis第一步

我的第一步

maven第一步

性能优化第一步

Python 第一步

第一步认识债券

踏出第一步

完善口语第一步

python之路第一步

Java第一步

伟大的第一步

迈出第一步

jHipster学习第一步

跨出第一步

前端学习第一步

Celery第一步

编程的第一步

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)