Java HTML-парсер [jsoup]

jsoup:

jsoup достижения спецификации WHATWG HTML5 и HTML парсинг и современный браузер DOM является то же самое.
1. грейферного URL, файл или строка HTML и разборы
2, используя DOM обход или CSS селекторы Поиска и извлечение данных
3, обработка HTML - элементы, атрибуты и текст
4, очистить содержимое пользователя в соответствии с безопасностью белого списка в целях предотвращения XSS атак
5, выход чистого HTML

Скачать пакет банки:

下载并安装jsoup[官网下载地址Jsoup.jar](https://jsoup.org/download)
Maven地址:
	<dependency>
 		<groupId>org.jsoup</groupId>
		 <artifactId>jsoup</artifactId>
		<version>1.12.1</version>
</dependency>

文档地址[官方文档](https://jsoup.org/cookbook/introduction/parsing-a-document)

Из строки синтаксического анализа документа

Строка HTML = « First parse»

  • «

    Проанализированные HTML в документ.

    «;
    Документ док = Jsoup.parse (HTML);

Аналитические фрагменты тела

Строка HTML = «

Lorem Ipsum.

«;
Документ док = Jsoup.parseBodyFragment (HTML);
Doc.body тело элемента = ();

使用 Jsoup.parseBodyFragment (String HTML) 方法.

Загрузите документ с URL

Вы должны получить в Интернете и анализировать HTML документа, а затем посмотреть на то, где данные (захват экрана)

Использование Jsoup.connect (String URL) метод:

Документ док = Jsoup.connect ( «http://example.com/») .get ();
Строка название = doc.title ();

Загрузите документ из файла

Использование статического Jsoup.parse (Файл в, String charsetName, String BaseUri) метод:

Входной файл = новый файл ( "/ TMP / input.html");
Документ док = Jsoup.parse (вход, «UTF-8», «http://example.com/»);

Просмотр документов с использованием методов DOM

После HTML разбора использовать метод, аналогичный DOM документа.

Входной файл = новый файл ( "/ TMP / input.html");
Документ док = Jsoup.parse (вход, «UTF-8», «http://example.com/»);

Содержание Элемент = doc.getElementById ( «контент»);
Элементы ссылки = content.getElementsByTag ( «а»);
для (Элемент ссылки: ссылки) {
Строка linkHref = link.attr ( «HREF»);
Строка LinkText = link.text ();
}

Изменить

Установить значение собственности

Метод с использованием свойства сеттер Element.attr (Key String, строковое значение) и Elements.attr (Key String, строковое значение).

Если вам необходимо изменить свойство класса элемента, используйте Element.addClass (Строка Classname) и метод Element.removeClass (Строка Classname).

Очистка HTML

Очистка ненадежной HTML (для предотвращения XSS)

Jsoup HTML очиститель для заданной конфигурации Whitelist.

Строка небезопасные =
«

Ссылка на сайт

«;
Строп = Jsoup.clean (небезопасный, Whitelist.basic ());
// сейчас:

Ссылка на сайт

Ключевое слово API

发布了26 篇原创文章 · 获赞 0 · 访问量 713

рекомендация

отblog.csdn.net/YHM_MM/article/details/103495612