Question about web crawler

Question about  web crawler

难:

1、cookie、JavaScript的关系?怎么产生的cookie?cookie包含哪些内容?JavaScript的功能在crawler代码中通过python的第三方库selenium,selenium用于执行JavaScript的脚本语言,那selenium是什么?运行脚本语言的脚本语言?

答:url:https://www.cnblogs.com/yinminbo/p/12014453.html

2、python库jQuery是基于JavaScript的第三方库,二、JavaScript是web客户端的脚本语言,难道jQuery是基于JavaScript语言编写的客户端的脚本语言的第三方库?python的第三方库和选择器的关系?(关系库是:find、findAll、find_element_by_id)

3、python第三方库requests库包含的类有哪些?==requests库的功能有哪些?requests库是实现这些功能独一无二的吗?如果不是,那requests库与其他库的优势和局限性?怎么将requests库根据自己的需求进行特性定制?

4、浏览器、web客户端、web服务器端的关系和组成?这三者之间的交互式怎么实现的?涉及Ajax技术、html格式文本(动态HTML和静态HTML的区别和关系是什么?)、使用了哪些数据结构来抽象对象,文件管理系统的算法逻辑是怎么样?webdriver是web服务器的组成部分还是浏览器的组成部分亦或者是web客户端?

# 5、web crawler涉及的网络方面的知识?#应该归为网络方面的question

5、web crawler会有哪些异常,如何处理这些异常?这些异常的产生于前面哪些疑问相关?网络、反crawler居多;而反crawler有涉及html、JavaScript、http等

6、伪随机数和随机数种子如何产生?梅森旋转算法?

7、网页表单的组成?web服务器如何根据web客户端提交的网页表单信息对用户进行区别对待(people还是robot)?如何将robot隐藏成people?如何特性定制网页表单?有哪些python第三方库可以实现功能?

8、API是什么?API和web三剑客的关系是如何(父子、朋友)?如何利用API?

# 9、并行网页抓取涉及的进程方面的那些知识?# 这部分的知识应该归为进程管理的question

10、拓展:自然语言处理、图像识别和文字处理、

易:

1、beautiful库的功能,beautiful库的三问?一问:对手;二问:优缺点;三问:如何特性定制

2、验证码的实现逻辑、如何通过验证的‘墙’

3、html的问题有哪些?

标签异常(缺失、未闭合、未正确嵌套)、

4、框架scrapy的组成和功能、深入理解各个部分的实现和web三个参与者的关系?分布型抓取还是单机运行?多线层还是单线程?多进程还是单进程?通信采取哪种?通讯方式‘三问’?使用的套路(例如:最后需要关闭close())?

5、三种文档编码方式:ASCII、Unicode、ISO的认识和理解。这三者和CSV、PDF、docx文件的关系是什么?

6、web crawler失败的可能性有哪些?为什么会有着写可能性?哪种可能性更高?如何减小失败的可能性?

猜你喜欢

转载自www.cnblogs.com/yinminbo/p/12014445.html
今日推荐