学习使用Java的webmagic框架爬取网页内容 - 代码天地

学习使用Java的webmagic框架爬取网页内容

其他 2020-02-10 23:34:07 阅读次数: 0

（一）使用前的配置：

　　1，使用IDEA创建web项目：https://blog.csdn.net/MyArrow/article/details/50824793

　　2，（1）添加依赖：

    <dependency>
      <groupId>us.codecraft</groupId>
      <artifactId>webmagic-core</artifactId>
      <version>0.7.3</version>
    </dependency>
    <dependency>
      <groupId>us.codecraft</groupId>
      <artifactId>webmagic-extension</artifactId>
      <version>0.7.3</version>
    </dependency>
    <dependency>
      <groupId>us.codecraft</groupId>
      <artifactId>webmagic-selenium</artifactId>
      <version>0.7.3</version>
    </dependency>

　　（2）从GitHub官网下载webmagic的压缩包(https://codeload.github.com/code4craft/webmagic/zip/master)，将webmagic-core使用Module from Existing Source..导入项目中

　　（3）在resources中添加资源文件log4j.properties中添加

# Set root logger level to DEBUG and its only appender to A1.
log4j.rootLogger=INFO, A1

# A1 is set to be a ConsoleAppender.
log4j.appender.A1=org.apache.log4j.ConsoleAppender

# A1 uses PatternLayout.
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

（二）写程序爬虫：

　　

　　抽取元素：

　　　　

　　　　1，page使用css选择器

　　　　2，page使用XPath

　　　　　　

　　　　　　

　　　　3，使用正则表达式

　　　　　　regex（“正则表达式”）

　　获取元素：

　　　　

　　设置爬虫属性：site

　　　　

　　Scheduler组件：

　　　　1，对抓取的url保存到队列

　　　　

　　　　2，对抓取的url去重

　　　　

　　　

猜你喜欢

转载自www.cnblogs.com/lq13035130506/p/12293346.html

学习使用Java的webmagic框架爬取网页内容

八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

使用WebMagic框架爬取京东数据

JAVA编程134——webmagic爬虫爬取网页招聘信息

java爬虫WebMagic框架爬取小姐姐的图片

好用的java爬虫框架webmagic爬取CSDN

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

如何使用Java爬取指定链接的网页内容

七、学习爬虫框架WebMagic（三）---webmagic+Selenium爬取动态页面

Java爬虫---使用WebMagic爬取小说数据

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)

使用webmagic爬取网页信息以及通过selenium进行页面元素操作

使用webmagic爬取网页信息以及通过selenium进行自动化点赞

WebMagic简单爬取Bilibili网页数据

十、学习爬虫框架WebMagic（六）---去重和增量爬取

webmagic爬取图片

PHP爬取网页内容

Python爬取网页内容

java 爬取1网页内容

2018.11.24如何使用python爬取网页内容

如何使用 Beautiful Soup 爬取网页内容？

学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面

java 爬虫学习笔记一使用爬虫框架 WebMagic

使用scrapy框架爬取网页图片——详解

[Java爬虫-WebMagic]-05-多级爬取

[Java爬虫-WebMagic]-04-处理爬取的结果

Java 爬取 51job 数据 WebMagic实现

【Java-Crawler】爬取动态页面（WebMagic、Selenium、ChromeDriver）

【Java-Crawler】爬取动态页面（HtmlUnit、WebMagic）

使用webmagic爬取51job网站的招聘信息

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)