Java里面去掉网页里的HTML标记的方法

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

               

 Java里面去掉网页里的HTML标记的方法

  1. /** 
  2.  * 去掉字符串里面的html代码。<br> 
  3.  * 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。 
  4.  *  
  5.  * @param content 
  6.  *          内容 
  7.  * @return 去掉后的内容 
  8.  */  
  9. public static String stripHtml(String content) {  
  10.   // <p>段落替换为换行  
  11.   content = content.replaceAll("<p .*?>""/r/n");  
  12.   // <br><br/>替换为换行  
  13.   content = content.replaceAll("<br//s*/?>""/r/n");  
  14.   // 去掉其它的<>之间的东西  
  15.   content = content.replaceAll("//<.*?>""");  
  16.   // 还原HTML  
  17.   // content = HTMLDecoder.decode(content);  
  18.   return content;  
  19. }  
  /**   * 去掉字符串里面的html代码。<br>   * 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。   *    * @param content   *          内容   * @return 去掉后的内容   */  public static String stripHtml(String content) {    // <p>段落替换为换行    content = content.replaceAll("<p .*?>", "/r/n");    // <br><br/>替换为换行    content = content.replaceAll("<br//s*/?>", "/r/n");    // 去掉其它的<>之间的东西    content = content.replaceAll("//<.*?>", "");    // 还原HTML    // content = HTMLDecoder.decode(content);    return content;  }

           

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

这里写图片描述

猜你喜欢

转载自blog.csdn.net/jgfyyfd/article/details/84195262