Java使用Jsoup获取网页指定元素 - 代码天地

Java使用Jsoup获取网页指定元素

编程语言 2023-08-19 01:09:22 阅读次数: 0

需要抓取网页上面的指定元素：
在这里插入图片描述
本来考虑使用webMagic，但是那个感觉有点复杂了，这里直接使用Jsoup来抓取：
1、导入依赖：

 <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.1</version>
 </dependency>

2、创建连接，解析页面元素

首先定义url：

 String url="https://ncbi.nlm.nih.gov/gene/51185";

再创建连接，通过get请求，拿到网页的document对象：
简单版的：

Document document = Jsoup.connect(url).get();

但是需要在类上抛出异常，这里使用捕获的方式以便处理错误：

 Connection conn = Jsoup.connect(url);
        Document document = null;
        try {
    
    
            document = conn.get();
        } catch (IOException e) {
    
    
            e.printStackTrace();
            // handle error
        }

分析页面元素：
在这里插入图片描述
选择到对应的元素：这里jsoup的语法就不贴了

 Element firstHeading = document.getElementsByClass("rprt-section gene-summary").first();
        Elements noline = firstHeading.getElementsByTag("dd");
        String element = noline.get(1).text();

但是抓取的内容有点多了：
在这里插入图片描述
这里只需要cereblon，可以查出provided在结果中第一次出现的位置，然后使用字符串截取的方式，拿到需要的结果：

完整代码如下：

 public static void main(String[] args)  {
    
    

       String url="https://ncbi.nlm.nih.gov/gene/51185";

      Connection conn = Jsoup.connect(url);
        Document document = null;
        try {
    
    
            document = conn.get();
        } catch (IOException e) {
    
    
            e.printStackTrace();
            // handle error
        }

        Element firstHeading = document.getElementsByClass("rprt-section gene-summary").first();
        Elements noline = firstHeading.getElementsByTag("dd");
        String element = noline.get(1).text();
        int provided = element.indexOf("provided");
        String fullName = element.substring(0, provided);
        System.out.println(fullName);

    }

猜你喜欢

转载自blog.csdn.net/weixin_42260782/article/details/130993552

Java使用Jsoup获取网页指定元素

使用HttpClient 、Jsoup的爬虫获取指定网页内容以及下载图片

htmlunit获取网页指定元素

Jsoup获取网页标题

java 使用Jsoup解析URL网页信息

java使用jsoup抓取网页图片

获取网页指定元素和内容

使用jsoup分析网页

httpClient获取Jsoup解析网页

网页内容获取工具 jsoup

JSoup获取网页中的链接

详解用Java实现爬虫：HttpClient和Jsoup的介绍及使用(请求方式、请求参数、连接池、解析获取元素)

【Java爬虫】使用Jsoup爬取网页表格的分页信息

【Java】Jsoup使用选择器语法来查找元素

Java 从网页指定URL获取文件

java使用jsoup解析网站TDK，获取title、keywords、description

Jsoup获取网页全部原始内容

[Jsoup] 使用HtmlUnit + Jsoup解析js动态生成的网页

JAVA使用Dom4j工具解析XML，获取指定节点下的所有元素。

Jsoup（java的HTML解析器）简介——使用Java抓取网页数据

java网页解析jsoup学习笔记

java 利用jsoup进行网页图片抓取

Jsoup+HttpClient爬取网页指定内容

使用Jsoup登录网站抓取网页内容

使用HtmlUnit + Jsoup 解析动态网页

Java 从网页指定url获取图片并压缩到本地

Python获取网页指定内容(BeautifulSoup工具的使用方法)

【JAVA-爬虫】使用 Jsoup+HttpClient 爬取网页信息

jsoup Java HTML解析器：使用选择器语法来查找元素

java使用jsoup爬虫入门

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)