【爬虫学习】反爬虫技术

1、通过User-Agent来控制访问 User-Agent是指用户代理,使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers。 这里面的大多数的字段都是浏览器向服务器”表明身份“用的。 对于爬虫程序来说,最需要注意的字段就是:User-Agent 很多网站都会建立 user-agent白名单,只有属于正常范围的user-agent才能够正常
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

troubleshooting -zk 报错解决方案

zk报错 分析问题的方法 。 起不来服务 然后去log 目录下 查看zookeeper.out的日志 一般放在/tmp目录下或者 zk的home目录下. [root@hadoop103 ~]# tail -f -n 100 zookeeper.out 2020-06-23 04:24:01,764 [myid:] - INFO [main:QuorumPeerConfig@136] - Reading configuration from: /opt/module/zookeeper-3.4.
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

PAT-1003 Emergency

题目描述 题意说明 输入: (1)第一行输入城市数量N、道路数量M、救援起点、救援终点。 (2)第二行输入这N个城市分别具有的救援物资数量,可以看成是城市点自带的权重。(救援队每经过一个城市,可以携带上这个城市的救援物资) (3)下面M行,分别记录M条道路的起点城市、终点城市和路程。 输出: (1)最短路径共有几条 (2)在最短路径中的,最大救援物资数量的值 代码 1 #include<bits/stdc++.h> 2 using namespace std; 3 #define INF
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

leetcode 1324: 竖直打印单词

import java.util.ArrayList; import java.util.List; /** * @Class PrintVertically * @Description 1324. 竖直打印单词 * 给你一个字符串 s。请你按照单词在 s 中的出现顺序将它们全部竖直返回。 * 单词应该以字符串列表的形式返回,必要时用空格补位,但输出尾部的空格需要删除(不允许尾随空格)。 * 每个单词只能放在一列上,每一列中也只能有一个单词。 * <p> * 示例 1: *
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

SSM+maven项目

创建maven项目 使用idea创建maven项目在这里就不多说了,网上都有,也很简单! 编写pom.xml文件(网上整合出的pom文件代码有很多,新手不必一个个收集jar包) <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoca
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

删除指定路径下,指定时间的文件

#Path #需要清空的文件夹 #daysago 日期 import os, datetime,sys reload(sys) sys.setdefaultencoding('utf8') dirToBeEmptied = Path #需要清空的文件夹 daysago=int(daysago) ds = list(os.walk(dirToBeEmptied)) #获得所有文件夹的信息列表 delta = datetime.timedelta(days=daysago) #设定daysago天
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

Python3 os.walk()函数导致buffer/cache占用过高问题处理

一、背景说明 os.walk()应该是当前python中遍历目录最推荐的函数,之前用python写了一个用于收集系统用到的第三方组件的脚本,在测试时使用os.walk()遍历了部分目录,并通过了全网的测试。但在改成遍历根目录后,被业务反馈说脚本占用内存过高导致了内存告警。 在直观感觉上,只遍历目录又不打开文件,应该只是相当于加载了一个目录树,不可能造成几十G内存的上涨。但一方面内存上涨时间和脚本的时间是一致的,另一方面在杀除脚本后内存出现了下降。所以基本可以确定内存上涨确实和该脚本是有关系的。
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

HEOI2020游记

坐标HE,A卷 省选前也是奥妙重重,从HEOI到BJOI到SXOI到HAOI再到HEOI (相对位移不变) Day 0 坐大巴赶赴sjz,在车上看xuefeng玩弱智游戏贼坑 然后就到酒店了,领了盒饭,去试机,感觉键位不大好使,打了个fhqTreap就溜了。 回去没啥好颓的就看了看电视,吃了晚饭交了手机看了会电影就睡了 Day 1 进考场先看题,推了推T1感觉是弱智题,直接线段树上二分就行了,就开始码码码(此处省略两个小时)。 没过大样例e,发现题意有这样一句话 使冰火双方消耗总能量最高的温度
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

977. 有序数组的平方『简单』

题目来源于力扣(LeetCode) 目录 一、题目 二、解题思路 三、代码实现 四、执行用时 五、部分测试用例 一、题目 977. 有序数组的平方 题目相关标签:数组、双指针 提示: 1 <= A.length <= 10000 -10000 <= A[i] <= 10000 A 已按非递减顺序排序。 二、解题思路 定义左右双指针,结果数组及 index 索引 通过双指针遍历数组 A 对左右两个指针上的元素进行取绝对值的操作(因为有负数的存在,且负数的平方是正数) 对取绝对值后的两个正数进行判
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

Linux pthread

转载请注明来源:https://www.cnblogs.com/hookjc/ 简介 POSIX thread 简称为pthread,Posix线程是一个POSIX标准线程.该标准定义内部API创建和操纵线程. 作用 线程库实行了POSIX线程标准通常称为pthreads.pthreads是最常用的POSIX系统如Linux和Unix,而微软Windowsimplementations同时存在.举例来说,pthreads-w32可支持MIDP的pthread    Pthreads定义了一套
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

C/C++ extern

extern
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

Python中时间的处理之——timedelta篇

#! /usr/bin/python # coding=utf-8 from datetime import datetime,timedelta """ timedelta代表两个datetime之间的时间差 """ now = datetime.now() past = past = datetime(2010,11,12,13,14,15,16) timespan = now - past #这会得到一个负数 past - now attrs = [ ("days","日"),(
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

httprunner系列09——处理乱码的两种处理思路

前言
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

CSS——层叠样式表

一、CSS又称为层叠样式表,是一种内容与表现分离的文件 关于在HTML中嵌入CSS样式表的方法有三种     #1行内样式 <tag style=""></tag> #2内部样式 <head> ... <style> .... </style> </head> #3外部样式 创建独立的css文件 xxx.css 与html页面同名 <head> <link rel="styleshe
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

flink底层API:KeyedProcessFunction

KeyedSteam可以调用process方法, 该方法可以接受一个KeyedProcessFunction类型的参数. KeyedProcessFunction类型的上层父类是RichFunction, 对分流后每一个元素调用一次KeyedProcessFunction中的elementProcess方法,可以通过Context调用timeServier, 注册定时器, 获得当前水位线, 处理时间, 等信息.
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

软件工程逃课小组 【团队名称-凡事预则立】

一、冲刺计划安排 时间 团队任务安排 6.24 主界面页面设计 6.25 登录界面设计,注册等交互设计 6.26 主页面功能 6.27 分诊台页面 6.28 数据库,后台管理 6.29 护士端,补充完成其他所需功能,接口等 6.30 进行软件维护测试 二、思考与总结 总结前面的作业: 之前的作业都有一个很严重的问题,那就是我们的作业总是比较拖,加上组员的积极性不高,不愿意参与作业之中。同时我们还有一个比较大的问题是作业做的比较艰难,大家都有点虎头蛇尾的感觉。 展望:希望这个项目大家都能够积极的
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

支付的测试点

支付金额 1.小于最小值,如:小于0.01 2.大于最大值/金额上限 3.无实际意义金额,如0元 4.格式错误(负数、非数字) 5.余额小于实际需要支付的金额 6.超过第三方支付接口当日消费/单笔消费金额 支付接口 第三方接口,微信/支付宝/网银系统/post机终端服务 支付操作 1.指纹支付 2.免密支付 3.账号+密码支付 4.动态获取支付验证码支付 5.银行卡密支付 6.信用卡支付码 异常处理 1.退款处理 2.支付数据交换时中断(断电、断网、弱网),重新启动能否再支付 3.支付失败后如
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

Windows10 添加shift + 右键打开cmd

前言:有的时候我们想在某个目录下鼠标右键选项打开cmd,但是win10默认鼠标右键打开是powershell,如下图: 介于使用cmd更加习惯,我们可以修改相关注册表来添加shift + 右键打开cmd。 一、右键添加cmd与powershell共存 1.电脑任意位置新建reg文件,如:addCmdShortCut.reg 2.编辑reg文件为: Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Directory\shell\cm
分类: 其他 发布时间: 06-23 20:14 阅读次数: 0

sql题目---day39

# 1、查询所有的课程的名称以及对应的任课老师姓名 #where select teacher.tname,course.cname from teacher,course where course.teacher_id = teacher.tid #内联写法 select teacher.tname,course.cname from teacher inner join course on course.teacher_id = teach
分类: 其他 发布时间: 06-23 19:58 阅读次数: 0

vue系列教程-11vuerouter路由

本内容为系列内容,全部内容请看我的vue教程分类 我的个人博客 本节仓库地址 视频教程地址 什么是路由 大家还记得我最开始提到的spa单页面吗,通过不同的路径显示不同的组件,这个就是通过router实现的 那么首先我们还需要引入一个 router文件 <script src="https://cdn.bootcss.com/vue-router/3.1.3/vue-router.js"></script> 这里的话我们还是以上面的bilibili消息中心为示例,使用到刚刚的代码 还是先定义组
分类: 其他 发布时间: 06-23 19:58 阅读次数: 0