java爬虫httpclient循环重定向的处理

转载:http://hi.baidu.com/z2y2m2/item/a3f980cedd17a22c46d5c012

这两天在使用我自己爬虫抓取网页的时候总是出现


org.apache.http.client.ClientProtocolException

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:909)

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:805)

at ThreadPageDownload.run(DownPages.java:132)

at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)

at java.lang.Thread.run(Unknown Source)

Caused by: org.apache.http.client.CircularRedirectException: Circular redirect to 'http://XXXXXX/XXXXX'

at org.apache.http.impl.client.DefaultRedirectStrategy.getLocationURI(DefaultRedirectStrategy.java:183)

at org.apache.http.impl.client.DefaultRedirectStrategy.getRedirect(DefaultRedirectStrategy.java:217)

at org.apache.http.impl.client.DefaultRequestDirector.handleResponse(DefaultRequestDirector.java:1105)

at org.apache.http.impl.client.DefaultRequestDirector.execute(DefaultRequestDirector.java:548)

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:906)

... 5 more

------------------------

org.apache.http.client.ClientProtocolException

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:909)

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:805)

at ThreadPageDownload.run(DownPages.java:132)

at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)

at java.lang.Thread.run(Unknown Source)

Caused by: org.apache.http.client.CircularRedirectException: Circular redirect to 'http://XXXXXX/XXXXX'

at org.apache.http.impl.client.DefaultRedirectStrategy.getLocationURI(DefaultRedirectStrategy.java:183)

at org.apache.http.impl.client.DefaultRedirectStrategy.getRedirect(DefaultRedirectStrategy.java:217)

at org.apache.http.impl.client.DefaultRequestDirector.handleResponse(DefaultRequestDirector.java:1105)

at org.apache.http.impl.client.DefaultRequestDirector.execute(DefaultRequestDirector.java:548)

at org.apache.http.impl.client.AbstractHttpClient.execute(AbstractHttpClient.java:906)

... 5 more


看过网上的解决方法,后来在一个CSDN博客中找到了答案,下面是我的解决方法

client.getParams().setParameter(ClientPNames.ALLOW_CIRCULAR_REDIRECTS, false);

HttpUriRequest request  = new HttpGet(url);

HttpEntity httpEntity = null;
request.addHeader("Accept-Charset", DEFAULT_CHARSET);
request.addHeader("Host", HOST);
request.addHeader("Accept", ACCEPT);
request.addHeader("User-Agent", USER_AGENT);


其中USER_AGENT的值为:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 1.7; .NET CLR 1.1.4322; CIBA; .NET CLR 2.0.50727)

有的网站会先判别用户的请求是否是来自浏览器,如不是,则返回不正确的文本

下面是别人的博客原文,引用一下:


最近忙于一个项目,了解下httpclient,在这里总结出来,和大家一起学习分享,希望各位朋友提出宝贵的意见。 

首先介绍一下项目的背景: 
  目标:把国内一家保险公司的“WEB一账通”改成“WAP一账通”。 
  资源:客户不提供任何的webservice接口。 
  
本项目中用到的第三方组件是apache的httpclient,一个非常强大的网页抓取工具(抓这个字用得可能不太好), 这里和大家 
一起讨论下httpclient的一些常用用法和要注意的地方。 

本文引用的资源列表: 

  httpclient入门:  http://www.ibm.com/developerworks/cn/opensource/os-httpclient/ 
  httpclient证书导入:http://www.blogjava.net/happytian/archive/2006/12/22/89447.html 
  httpclient高级认识:http://laohuang.iteye.com/blog/55613 
  httpclient官方文档:http://hc.apache.org/httpcomponents-client/index.html 
  httpclient资源关闭:http://www.iteye.com/topic/234759 
  
  
上面的文章写得很好,看完之后也就知道怎么用httpclient这个很好的工具了,但是在这里还是补充一些比较重要的东西,也是项目中经 
常碰到的问题。 

首先要注意的有以下几点: 
1、httpclient连接后资源释放问题很重要,就跟我们用database connection要释放资源一样。 
2、https网站采用ssl加密传输,证书导入要注意。 
3、做这样的项目最好先了解下http协义,比如302,301,200,404返回代码的含义(这是最基本的),cookie,session的机制。 
4、httpclient的redirect状态默认是自动的,这在很大程度上给开发者很大的方便(如一些授权获得cookie),但是有时要手动管理下,比如 
  有时会遇到CircularRedirectException异常,出现这样的情况是因为返回的头文件中location值指向之前重复(端口号可以不同)地址,导致可能会出现死 
  循环递归重定向,这时可以手动关闭:method.setFollowRedirects(false) 
5、有的网站会先判别用户的请求是否是来自浏览器,如不是,则返回不正确的文本,所以用httpclient抓取信息时在头部加入如下信息: 
  header.put("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 1.7; .NET CLR 1.1.4322; CIBA; .NET CLR 2.0.50727)"); 
6、当post请求提交数据时要改变默认编码,不然的话提交上去的数据会出现乱码。重写postMethod的setContentCharSet()方法就可以了: 



尽管像上面一样修改了代码,还是时常出现此异常,翻遍google才找到解决办法:


就是设置【HttpClient参数】

这些是可以用于定制默认HttpClient实现行为的参数:

  • 'http.protocol.handle-redirects':定义了重定向是否应该自动处理。这个参数期望得到一个java.lang.Boolean类型的值。如果这个参数没有被设置,HttpClient将会自动处理重定向。

  • 'http.protocol.reject-relative-redirect':定义了是否相对的重定向应该被拒绝。HTTP规范需要位置值是一个绝对URI。这个参数期望得到一个java.lang.Boolean类型的值。如果这个参数没有被设置,那么就允许相对重定向。

  • 'http.protocol.max-redirects':定义了要遵循重定向的最大数量。这个重定向数字的限制意在防止由破碎的服务器端脚本引发的死循环。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,那么只允许不多余100次重定向。

  • 'http.protocol.allow-circular-redirects':定义环形重定向(重定向到相同路径)是否被允许。HTTP规范在环形重定向没有足够清晰的允许表述,因此这作为可选的是可以开启的。这个参数期望得到一个java.lang.Boolean类型的值。如果这个参数没有被设置,那么环形重定向就不允许。

  • 'http.connection-manager.factory-class-name':定义了默认的ClientConnectionManager实现的类型。这个参数期望得到一个java.lang.String类型的值。如果这个参数没有被设置,对于每个默认的将使用SingleClientConnManager。

  • 'http.virtual-host':定义了在头部信息Host中使用的虚拟主机名称,来代替物理主机名称。这个参数期望得到一个HttpHost类型的值。如果这个参数没有被设置,那么将会使用目标主机的名称或IP地址。

  • 'http.default-headers':定义了每次请求默认发送的头部信息。这个参数期望得到一个包含Header对象的java.util.Collection类型值。

  • 'http.default-host':定义了默认主机。如果目标主机没有在请求URI(相对URI)中明确指定,那么就使用默认值。这个参数期望得到一个HttpHost类型的值。


【解决办法】

[java]  view plain  copy
  1. HttpParams params = new BasicHttpParams();   
  2. HttpGet getMethod = new HttpGet("http://XXXX.XXX");  
  3. getMethod.getParams().setParameter("http.protocol.allow-circular-redirects"true);  
  4. HttpResponse response = httpClient.execute(getMethod);  

猜你喜欢

转载自blog.csdn.net/a13662080711/article/details/80593191
今日推荐