java移除字符串里的html元素
百度查询的自己实现的方法很多,但是自己有时写的不是很全,用的第三方开源工具jsoup
- 添加maven依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
- 编写工具类,写入下面方法
public static String removeTags(String htmlStr) {
Document doc = Jsoup.parse(htmlStr);
String text = doc.text();
// remove extra white space
StringBuilder builder = new StringBuilder(text);
int index = 0;
while(builder.length()>index){
char tmp = builder.charAt(index);
if(Character.isSpaceChar(tmp) || Character.isWhitespace(tmp)){
builder.setCharAt(index, ' ');
}
index++;
}
text = builder.toString().replaceAll(" +", " ").trim();
return text;
}
然后调用即可。