基于jsoup的网页爬虫 - 代码天地

基于jsoup的网页爬虫

企业开发 2018-05-10 04:48:16 阅读次数: 0

前阵子做了个网页抓取工具，可扩展性较差，今天发现google 的一个开源网页抓取工具jsoup，写了个测试，与大家分享下

package com.gump.net.html.test;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 *测试类
 *用jasoup进行html具体的网页解析例子
  @author ganliang13
  {@link http://ganliang13.iteye.com/}
 * */
public class test {
	public static void main(String[] args) throws IOException{
		long begin = System.currentTimeMillis();
		//整个html内容
		Document doc = Jsoup.connect("http://www.qzone.cc/Gexing/Qian/02/26263.html").timeout(30000).get(); // 设置连接超时时间 
		
		//打印html文档的<title>内容
		System.out.println(doc.getElementsByTag("title"));
        
		//打印html文档的<a>内容
		Elements aels = doc.getElementsByTag("a");
		
		for (Element el : aels) {
			System.out.println(el.toString());
		}
		
		long end = System.currentTimeMillis();
		System.out.println(end-begin);
	}
}

猜你喜欢

转载自ganliang13.iteye.com/blog/1717146

基于jsoup的网页爬虫

基于jsoup的爬虫

基于jsoup爬虫下载图库

Android Jsoup网页爬虫—>程序猿面试指南App

采用HttpClient和Jsoup实现简单的网页爬虫

Jsoup + HtmlUtil 实现网易新闻网页爬虫

【Java爬虫】使用Jsoup爬取网页表格的分页信息

爬虫Jsoup

jsoup爬虫

记录一下,基于jsoup的爬虫(入门级)

基于JSoup的网络爬虫爬取小说内容

【Java】基于jsoup爬虫实现（从智联获取工作信息）

Android网页爬虫jsoup实现从网页提取数据与分页循环加载

基于python的批量网页爬虫

基于Python的网页图片爬虫

jsoup + json 解析网页

使用jsoup分析网页

Jsoup获取网页标题

java jsoup 网络爬虫学习例子（四）抓取网页连接插入mysql数据库

Android Jsoup 网络爬虫抓取网页数据---新手学习详细教程！

使用HttpClient 、Jsoup的爬虫获取指定网页内容以及下载图片

【JAVA-爬虫】使用 Jsoup+HttpClient 爬取网页信息

【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

爬虫java利用jsoup下载网页表单table,并下载到数据库

Jsoup网络爬虫

Jsoup爬虫 demo

网络爬虫技术Jsoup

JAVA爬虫学习jsoup

爬虫初识jsoup

jsoup jxpath 实现爬虫

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)