网页搜集效率 - 代码天地

网页搜集效率

编程语言 2018-05-14 17:53:39 阅读次数: 2

所谓效率，在这里就是如何利用尽量少的资源（计算机设备、网络带宽、时间）来完成预定的网页搜集量。在批量搜集的场合，我们通常考虑半个月左右能搜集到的网页，自然是越多越好。由于网页之间存在的独立性，利用许多台计算机同时来做这项工作是一个吸引人的想法。

第一，即使是用一台计算机来搜集网页，也应该注意并发性的开发和利用。由于从网上抓取一篇网页通常需要秒量级的等待网络通信时间

第二点是并不是设备越多越好。在用若干台计算机形成一个机群的安排下，它们共同分享出口网络带宽，随着设备量的增加，这个网络带宽（或者是周围的某个环境带宽）很快就成为瓶颈。经验表明实际上用不了超过10台计算机。分布式搜集的想法，即让多台设备分布在网络上的不同位置，从而克服上述带宽瓶颈问题，具体实现起来的麻烦会超过可能带来的好处（也许Google那样的针对多个国家用户的巨型搜索引擎需要用这种技术）

第三点发生在网络的另一端，即服务器方，它可能来不及提供所需的网页。这除了有些Web服务器所处的网络条件比较差，或者有太多其他人访问外，搜索引擎太频繁对它们发出网页请求也是一个重要原因。落实到技术上，就是要有一个访问策略或者URL规划，不要让搜集器启动的抓取进程都集中在少数几个网站上。

猜你喜欢

转载自deepfuture.iteye.com/blog/573819

网页搜集效率

搜索引擎网页搜集策略

影响数据库查询效率的因素搜集

如何提高CSS网页渲染效率

提高前端开发效率--让网页自动刷新

HTTP代理——提高网页抓取效率的秘诀

使用网页爬虫（高级搜索功能）搜集含关键词新浪微博数据

CSS和JS的位置会影响页面效率 --网页性能

提高CSS的网页渲染效率11个注意点

PHP抓取网页指定内容（推荐用CURL效率更高）

如何从前端的角度去优化网页，提高网页的加载效率

搜集的书籍

网站搜集

算法搜集

网址搜集

数据的搜集

博客搜集

资料搜集

信息搜集

效率？？？？

Mysql模糊查询like效率，以及更高效的写法（转自网页）

理论+实验·Apache网页优化,提升效率,添加防盗链,隐藏apache版本号

【前端必看】极大提高开发效率的网页 JS 调试技巧

效率神器，边看网页边问ChatGPT！神级ChatGPT插件（浏览器扩展）推荐！

如何将常用网页转为桌面快捷方式（效率up）

前端网页国际化 translate.js，高效率翻译，傻瓜式教学

渗透测试 - 信息搜集（子域搜集）

Solr 语法搜集

优秀控件搜集

Android保活搜集

今日推荐

周排行

例题2-6 数据统计II（多组数据的统计）

类百度富文本编辑器文件上传。

Activity setContentView主要流程

增长的核心之减少用户阻力的三大原则

分布式服务框架原理与实践

C语言-预处理、结构体

UVA11300 Spreading the Wealth【思维】

linux内核支持usb转串口，内存设备

iOS开发笔记之跳转QQ聊天页、跳转微信、应用内拨打电话

Java面试通关要点汇总集，互联网面试官如何面试

每日归档

更多

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)

2024-07-26(0)

2024-07-25(0)

2024-07-24(0)

2024-07-23(0)

2024-07-22(0)

2024-07-21(0)