jsoup:
jsoup достижения спецификации WHATWG HTML5 и HTML парсинг и современный браузер DOM является то же самое.
1. грейферного URL, файл или строка HTML и разборы
2, используя DOM обход или CSS селекторы Поиска и извлечение данных
3, обработка HTML - элементы, атрибуты и текст
4, очистить содержимое пользователя в соответствии с безопасностью белого списка в целях предотвращения XSS атак
5, выход чистого HTML
Скачать пакет банки:
下载并安装jsoup[官网下载地址Jsoup.jar](https://jsoup.org/download)
Maven地址:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
文档地址[官方文档](https://jsoup.org/cookbook/introduction/parsing-a-document)
Из строки синтаксического анализа документа
Строка HTML = «
- «
Проанализированные HTML в документ.
«;
Документ док = Jsoup.parse (HTML);
Аналитические фрагменты тела
Строка HTML = «
Lorem Ipsum.
«;Документ док = Jsoup.parseBodyFragment (HTML);
Doc.body тело элемента = ();
使用 Jsoup.parseBodyFragment (String HTML) 方法.
Загрузите документ с URL
Вы должны получить в Интернете и анализировать HTML документа, а затем посмотреть на то, где данные (захват экрана)
Использование Jsoup.connect (String URL) метод:
Документ док = Jsoup.connect ( «http://example.com/») .get ();
Строка название = doc.title ();
Загрузите документ из файла
Использование статического Jsoup.parse (Файл в, String charsetName, String BaseUri) метод:
Входной файл = новый файл ( "/ TMP / input.html");
Документ док = Jsoup.parse (вход, «UTF-8», «http://example.com/»);
Просмотр документов с использованием методов DOM
После HTML разбора использовать метод, аналогичный DOM документа.
Входной файл = новый файл ( "/ TMP / input.html");
Документ док = Jsoup.parse (вход, «UTF-8», «http://example.com/»);
Содержание Элемент = doc.getElementById ( «контент»);
Элементы ссылки = content.getElementsByTag ( «а»);
для (Элемент ссылки: ссылки) {
Строка linkHref = link.attr ( «HREF»);
Строка LinkText = link.text ();
}
Изменить
Установить значение собственности
Метод с использованием свойства сеттер Element.attr (Key String, строковое значение) и Elements.attr (Key String, строковое значение).
Если вам необходимо изменить свойство класса элемента, используйте Element.addClass (Строка Classname) и метод Element.removeClass (Строка Classname).
Очистка HTML
Очистка ненадежной HTML (для предотвращения XSS)
Jsoup HTML очиститель для заданной конфигурации Whitelist.
Строка небезопасные =
«
Строп = Jsoup.clean (небезопасный, Whitelist.basic ());
// сейчас: