java通过Jsoup爬取网页(入门教程) - 代码天地

java通过Jsoup爬取网页(入门教程)

其他 2019-09-26 23:21:26 阅读次数: 0

一，导入依赖

     <!--java爬虫-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.3</version>
        </dependency>
        <!--httpclient依赖-->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
        </dependency>

二，编写demo类

注意不要导错包了,是org.jsoup.nodes下面的

package com.taotao.entity;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Author: TaoTao  2019/9/26
 */
public class intefaceTest {
    public static void main(String[] args) throws IOException {
        CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient
        HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//创建httpget实例

        CloseableHttpResponse response = httpClient.execute(httpGet);//执行get请求
        HttpEntity entity = response.getEntity();//获取返回实体
        String content =  EntityUtils.toString(entity,"utf-8");//网页内容
        response.close();//关闭流和释放系统资源

        Jsoup.parse(content);
        Document doc = Jsoup.parse(content);//解析网页得到文档对象
        Elements elements = doc.getElementsByTag("title");//获取tag是title的所有dom文档
        Element element = elements.get(0);//获取第一个元素
        String title = element.text(); //.html是返回html
        System.out.println("网页标题："+title);
        Element element1 = doc.getElementById("site_nav_top");//获取id=site_nav_top标签
        String str = element1.text();
        System.out.println("str:"+str);
    }
}

猜你喜欢

转载自www.cnblogs.com/book-mountain/p/11595018.html

java通过Jsoup爬取网页(入门教程)

Python爬虫入门教程二：爬取静态网页

【Java爬虫】使用Jsoup爬取网页表格的分页信息

JAVA Jsoup爬取网页图片下载到本地

Python入门教程！手把手教会你爬取网页数据

jsoup爬取网页数据

java爬取图片-使用jsoup通过关键字爬取图片

Python爬虫入门教程！手把手教会你爬取网页数据

Python爬虫入门教程： 27270图片爬取

Python爬虫入门教程：爬取妹子图网站

【JAVA-爬虫】使用 Jsoup+HttpClient 爬取网页信息

【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

java爬虫——HttpClient爬取jsoup解析

Jsoup简单例子——爬取网页内的邮箱

爬取网页内容的利器--Jsoup用法简介

Jsoup配合 htmlunit 爬取异步加载的网页

Jsoup实现爬取多个网页的多条固定信息

Jsoup+HttpClient爬取网页指定内容

使用jsoup爬取网页信息，保存到txt中

爬取图片 jsoup

jsoup 爬取电影

jsoup爬取图片

Jsoup 爬取文章

Android Jsoup爬取网页数据及其局限性，接口爬取数据的思路

Python 爬虫入门教程，使用 Beautiful Soup 爬取某网站弹幕教程

爬取app内的数据！mitmproxy入门教程！python爬虫入门实战

Java爬取网页图片

JAVA爬取网页邮箱

Python爬虫入门教程 5-100 27270图片爬取

python+scrapy入门教程之爬取腾讯招聘职位信息

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)