01-25 国家药监总局 公司详情信息抓取

1、准备工作:

1、什么是动态加载?
对某个url按下enter,若获得多个数据包(network中),即一个url连带着这发起多个请求,获得多个数据包(就是动态加载)

2、在抓包工具中,定位到某个数据包时多对应的response里的数据,就是我们通过requests模块对该数据包里的url发起请求所获得的响应数据。

3、elements里面的页面标签数据所对应的整个页面加载完毕对应的数据。数据包里的url(即单个url)对应的数据是network中的某个包对应的response

4、如何判定页面中存在动态加载数据?
利用抓包工具进行局部搜索,具体如:
进入到该页面对应的数据包里的response中,局部搜索页面的任意一内容,搜索不到,即为动态加载

5、若已确认为动态加载,如何进行需要的数据的定位?即如何确定你想要搜索的内容在哪个数据包中?
光标定位到数据包列表中,按下crtl+F,然后进行全局搜索

6、对某个陌生的网站数据进行爬取前,一定要判断你所要爬取得数据是否为动态加载

猜你喜欢

转载自blog.csdn.net/weixin_46400833/article/details/113149467