Http解析(httppaser.jar)


这[java]  view plain copy
  1. package com.test;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.IOException;  
  5. import java.io.InputStream;  
  6. import java.io.InputStreamReader;  
  7. import java.io.OutputStreamWriter;  
  8. import java.net.URL;  
  9. import java.net.URLConnection;  
  10.   
  11. public class TestPost {  
  12.   
  13.     public static void testPost() throws IOException {  
  14.   
  15.         /** 
  16.          * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如: // Using 
  17.          *  java.net.URL and //java.net.URLConnection 
  18.          */  
  19.         URL url = new URL("http://www.faircanton.com/message/check.asp");  
  20.         URLConnection connection = url.openConnection();  
  21.         /** 
  22.          * 然后把连接设为输出模式。URLConnection通常作为输入来使用,比如下载一个Web页。 
  23.          * 通过把URLConnection设为输出,你可以把数据向你个Web页传送。下面是如何做: 
  24.          */  
  25.         connection.setDoOutput(true);  
  26.         /** 
  27.          * 最后,为了得到OutputStream,简单起见,把它约束在Writer并且放入POST信息中,例如: ... 
  28.          */  
  29.         OutputStreamWriter out = new OutputStreamWriter(connection  
  30.                 .getOutputStream(), "8859_1");  
  31.         out.write("username=kevin&password=*********"); //post的关键所在!  
  32.         // remember to clean up  
  33.         out.flush();  
  34.         out.close();  
  35.         /** 
  36.          * 这样就可以发送一个看起来象这样的POST:  
  37.          * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT: 
  38.          * text/plain Content-type: application/x-www-form-urlencoded 
  39.          * Content-length: 99 username=bob password=someword 
  40.          */  
  41.         // 一旦发送成功,用以下方法就可以得到服务器的回应:  
  42.         String sCurrentLine;  
  43.         String sTotalString;  
  44.         sCurrentLine = "";  
  45.         sTotalString = "";  
  46.         InputStream l_urlStream;  
  47.         l_urlStream = connection.getInputStream();  
  48.         // 传说中的三层包装阿!  
  49.         BufferedReader l_reader = new BufferedReader(new InputStreamReader(  
  50.                 l_urlStream));  
  51.         while ((sCurrentLine = l_reader.readLine()) != null) {  
  52.             sTotalString += sCurrentLine + "/r/n";  
  53.   
  54.         }  
  55.         System.out.println(sTotalString);  
  56.     }  
  57.   
  58.     public static void main(String[] args) throws IOException {  
  59.   
  60.         testPost();  
  61.   
  62.     }  
  63.   
  64. }  



下面让我先去下载一个解析HTTP的jar包,催建下载地址:点击打开链接
htmlparser:解析



[java]  view plain copy
  1. package com.test;  
  2.   
  3. import org.htmlparser.Node;  
  4. import org.htmlparser.NodeFilter;  
  5. import org.htmlparser.Parser;  
  6. import org.htmlparser.filters.TagNameFilter;  
  7. import org.htmlparser.tags.TableTag;  
  8. import org.htmlparser.util.NodeList;  
  9.   
  10. /** 
  11. * 标题:利用htmlparser提取网页纯文本的例子 
  12. */  
  13. public class TestHTMLParser {  
  14.   public static void testHtml() {  
  15.     try {  
  16.         String sCurrentLine;  
  17.         String sTotalString;  
  18.         sCurrentLine = "";  
  19.         sTotalString = "";  
  20.         java.io.InputStream l_urlStream;  
  21.         java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");  
  22.         java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();  
  23.         l_connection.connect();  
  24.         l_urlStream = l_connection.getInputStream();  
  25.         java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));  
  26.         while ((sCurrentLine = l_reader.readLine()) != null) {  
  27.           sTotalString += sCurrentLine+"/r/n";  
  28.         //  System.out.println(sTotalString);  
  29.         }  
  30.         String testText = extractText(sTotalString);  
  31.         System.out.println( testText );  
  32.   
  33.     } catch (Exception e) {  
  34.         e.printStackTrace();  
  35.     }  
  36.   
  37.   }  
  38.    
  39.   public static String extractText(String inputHtml) throws Exception {  
  40.     StringBuffer text = new StringBuffer();  
  41.     Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");  
  42.     // 遍历所有的节点  
  43.     NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {  
  44.         public boolean accept(Node node) {  
  45.           return true;  
  46.         }  
  47.     });  
  48.   
  49.     System.out.println(nodes.size()); //打印节点的数量  
  50.     for (int i=0;i<nodes.size();i++){  
  51.          Node nodet = nodes.elementAt(i);  
  52.          //System.out.println(nodet.getText());   
  53.         text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n");            
  54.     }  
  55.     return text.toString();  
  56.   }  
  57.    
  58.   public static void test5(String resource) throws Exception {  
  59.     Parser myParser = new Parser(resource);  
  60.     myParser.setEncoding("GBK");  
  61.     String filterStr = "table";  
  62.     NodeFilter filter = new TagNameFilter(filterStr);  
  63.     NodeList nodeList = myParser.extractAllNodesThatMatch(filter);  
  64.     TableTag tabletag = (TableTag) nodeList.elementAt(11);  
  65.        
  66.   }  
  67.   
  68.   public static void main(String[] args) throws Exception {  
  69.     // test5("http://www.ggdig.com");  
  70.     testHtml();  
  71.   }  
  72. }  

猜你喜欢

转载自blog.csdn.net/u012922262/article/details/17389393