heritrix无法抓取中文URL的问题解决方案

Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可

解决方法

修改org.archive.crawler.extractor.ExtractorJS类


static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\w|/)";

改为
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\S|/)";



猜你喜欢

转载自wangwei3.iteye.com/blog/662969
今日推荐