heritrix无法抓取中文URL的问题解决方案 - 代码天地

heritrix无法抓取中文URL的问题解决方案

编程语言 2018-05-14 14:07:16 阅读次数: 2

Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可

解决方法

修改org.archive.crawler.extractor.ExtractorJS类
把

static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\w|/)";

改为
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\S|/)";

猜你喜欢

转载自wangwei3.iteye.com/blog/662969

heritrix无法抓取中文URL的问题解决方案

js 解析url中search时存在中文乱码问题解决方案

Windows下命令行Git无法显示中文问题解决方案

centos7 下pycharm无法输入中文问题解决方案

中文乱码问题解决方案

Redis中中文乱码的问题解决方案

Ubuntu中文乱码问题解决方案

eclipse中文乱码问题解决方案

docker tomcat 中文乱码问题解决方案

文件下载中文乱码问题解决方案

matplotlib中文乱码问题解决方案

PyCharm无法引用matplotlib的问题解决方案

monkeyrunner无法运行的问题解决方案总结

被驱逐的pod无法被回收问题解决方案

Opencores 无法点击submit的问题解决方案

selenium 页面超时后捕获异常也无法继续get(url)使用的问题解决方案

eclipse中文乱码问题解决方案以及一种无法解决乱码的情况

无法输入中文标点符号问题解决方案【亲测有效】

fiddler抓取的https请求数据乱码问题解决方案

ARCGIS问题解决方案

网站问题解决方案

Python问题解决方案

pip问题解决方案

乱码问题解决方案

线上问题解决方案

PCB问题解决方案

幂等问题解决方案

问题解决方案

【问题解决方案】Dev C++ 无法调试的问题与解决

URL 传+号到后台变空格问题解决方案

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)