整站获取工具

最近由于业务需求,稍微研究了一下网站整站获取工具。为什么不使用爬虫而要特地去使用整站获取工具?因为爬虫需要对网站结构进行有针对性地设计,而某些情况下我们只想把网站的信息全部本地化之后进行分析。这是整站工具的好处。当然,前提是有足够的本地空间、流量以及时间进行整站拷贝。

先简单介绍一下两个我考虑过但是认为实际上不好用的工具。

PyWebCopy

如其名称所示,这是Python的一个工具包,通过pip可以直接安装,其用途倒也十分对应我们的需求,即网页拷贝和网站拷贝。

这一工具的缺陷主要在于功能不完备。我在第一步尝试后发现中文站点下载下来都是乱码,且未能找到设置编码的参数。另外进行初步实验后发现许多链接无法识别。

wget

在网络上出乎意料地发现wget这个下载神器不仅可以用于下载文件,还可以用于下载整站。

然而网络中介绍的命令行经过初步实验不可使用,我也尝试翻阅wget的文档,在上千页的文本中未能找出整站下载的功能是哪一个。只能说工具确实是好工具,主要是自己人太菜了。

HTTrack

HTTrack是最终满足我业务需求的工具。

从通用性的角度来看,它是一个跨平台软件,在Linux、MacOS和Windows均有实现,不用担心换个电脑就用不了或者没法用服务器托管。

从操作简便性的角度,这个软件可以命令行操作也提供了GUI界面。网上有些朋友说参数太复杂,我个人感觉核心功能的实现只要用默认参数就行了所以不算复杂,而提供这么多可选参数也是为了满足用户的多元化需求。万维网发展到今天这么多标准这么多类型的文件,软件设计得太傻瓜肯定有兼顾不到的需求。

从爬取效果的角度,我对三个网站进行了测试,在网站备份得完整性上还是比较满意的。

或许有一点每种不足的是速度没有我“幻想”得那样快,一个包含5万个页面的网站花了2天多接近3天时间才拷贝完成。不过也没办法更快。

本文由 mdnice 多平台发布

猜你喜欢

转载自blog.csdn.net/amandus/article/details/131477953