Python爬虫学习环境配置之tesserocr安装的问题与解决

在爬虫过程中会遇到各种各样的验证码,而大多数验证码还是图形验证码,此时可以使用OCR来识别。OCROCR(optical character recognition)是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,他们都是一些不规则的字符。安装tesseracttesserocr是Python的一个OCR识别库,但其实是对tesseract做的一个封装,所以核心是tesseract。因此我们先安装tesseract。tesseract下载地址:https://digi
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

算法设计与应用之二叉搜索树

今年暑假参加了某C9院校的夏令营,面试时在算法方面被问到了二叉搜索树和堆结合的问题,当时太紧张了没答出来T T,也可以说是自己太菜了吧,因此下来之后又温习了下二叉树和堆的知识。写个笔记就当记录下自己的悔恨吧T T,同时树、图和堆在各种面试场合都是重点!二叉搜索树二叉搜索树,是将二分搜索过程的动机应用于基于树的数据结构中,以更有效地支持更新操作。二叉搜索树的特点就是存储在v的左子树的元素值均小于v的值e,存储在v的右子树的元素值均大于等于v的值e,因此二叉搜索树的中序遍历便是以非降序的顺序访问这种树中的
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

带你吃透分治算法 (一)最大子数组

分治算法分治算法的基本思想是将一个规模为N的问题分解为K个规模较小的子问题,这些子问题相互独立且与原问题性质相同。求出子问题的解,就可得到原问题的解。就像归并排序的排序思想一样。回忆一下归并排序的过程,我们在递归地求解一个问题时,在每层递归中应用了以下三个步骤:分解:将原问题划分为子问题,子问题的形式(性质)和原问题一样,只是规模变小了解决:当子问题的规模非常小了(如递归排序中排序元素只有一个时),则停止递归,直接进行求解。合并:将划分的两个子问题的解组合成原问题的解,不过有时我们会遇到需要求解
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

带你吃透分治算法(二)矩阵相乘

分治策略(二)我们在上一篇博文介绍了分治策略思想以及解决最大子数组的问题。见:带你吃透分治算法之最大子数组下面我们来介绍应用分治思想解决“矩阵相乘问题”(虽然用分治策略解决矩阵相乘问题时间复杂度不低,但是它反映的是一种思想,当我们遇到棘手问题不好解决,往往先找到能够解决的办法比找到最优办法更重要)矩阵乘法矩阵乘法我们应该都有所了解,若矩阵A和矩阵B均是nxn的方阵,则定义乘积C=A·B中的元素c(i,j)为:暴力解法:暴力解法就是按照矩阵乘积定义进行运算,得到最终的C矩阵,时间复杂度为O(n
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Python爬虫之urllib库和requests库的基本使用

在Python3中,有urllib库来实现请求的发送(将Python2中的urllib2已经统一至urllib库中)。对于urllib库的疑问可以参照官网说明了解:https://docs.python.org/3/library/urllib.htmlurllib库urllib库是python内置的HTTP请求库,包含四个模块:request:最基本的HTTP请求模块,可以用来模拟发送请求。error:异常处理模块,如果出现请求错误,可以对这些异常进行捕获,防止程序意外终止。parse:一个_python urlunsplit
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

正则表达式运用python爬虫

正则表达式是处理字符串的强大的工具,它有着自己特点的语法结构。对正则表达式没有了解的可以先网上自行了解一下,也可以看下我之前学习时的学习笔记OTZ:匹配方法match()首先介绍第一个匹配方法match(),通过向match()传入要匹配的字符串和正则表达式就可以检测这正则表达式是否能够匹配该字符串。下面我们以Hello I am Small_Fash, 21 years old, pick me!字符串进行操作。match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就会返回匹配
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Python爬虫学习案例之抓取猫眼电影排行Top100

目前在自学python爬虫,接下来运用学习了的requests库和正则表达式实操一下Python爬虫初学者经常训练的一个小实战案例——爬取猫眼电影排行Top100抓取分析首先我们打开抓取的目标站点https://maoyan.com/board/4同时此时页面的URL为https://maoyan.com/board/4?offset=0我们将网页滚到最下方,发现有分页的列表,直接点击第2页,观察页面的URL和内容发生了变化,URL变为了https://maoyan.com/board/4?of
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

快速排序算法优化(基准选取、快速+插入、基数聚集)

本文主要是关于快速排序算法的优化,想了解各种排序算法的基础原理请看图解常用十大排序算法快速排序算法优化我们直到快速排序算法利用了分治的思想,即将一组序列分割成独立的两部分(俗称划分),其中一部分的数据比另一部分的数据小,然后再按照此方法对两部分序列再分别进行快速排序,当划分的两部分包含的数据个数越接近时,快速排序的时间复杂度越小(这也就是为什么我们说快速排序不适合对基本有序的序列进行排序,因为这样会出现划分的两部分数据个数差别大的情况)因此基准的选择对快速排序来说是很重要的。基准的选取固定基准:_最短路径动态规划
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

python类的基础运用:python十点半游戏学习笔记

十点半游戏是写好了,可是老师又让我们用类的方式改写,这可真是……只能往下写了! 最近在学习python中类的知识,感觉难度挺高的,稍微理解了一点点而老师又布置了作业,刚好也有同学问我咋写我就随手写了点东西放在这儿 首先我写了这么一段代码,创建一副扑克牌扑克牌是很普通的,有着两个属性:牌面和标志运行后是创建了个cards列表,在下图里我们就可以看见card..._python十点半游戏代码
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

python十点半游戏完整代码及详细注释

说明文章在这儿https://blog.csdn.net/qq_26373925/article/details/87283518这里只贴代码吧# -*- coding: utf-8 -*-#原创#QQ:940857703#此版本,于2018年12月9日#游戏类class Game: #一般游戏进程,从读取存档开始 def Process(self): ..._python完整游戏代码
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

vmware15 虚拟机安装配置Ubuntu18.04及vmware tools(Hadoop之旅1)

本文主要内容:1. vmware虚拟机安装配置2. ubuntu系统安装3. vmware tools安装4. 配置ubuntu下载镜像源0.准备工作下载安装vmware15:https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.1.0-13591040.exe注/册/码:FC..._vmware 15 ubuntu 18.04 虚拟机安装 vmware tool
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Ubuntu18.04下安装配置java环境(jdk8)(Hadoop之旅2)

0.安装配置java环境从oracle官网下载jdk8:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html打开网页,找到Java SE Development Kit 8u211(此处8u211是版本号,以自己打开网页看到的为准)勾选上方的Accept Lic..._ubuntu配置jdk以及hadoop
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Ubuntu18.04下配置ssh免密登录(hadoop之旅3)

上一篇:Ubuntu18.04下安装配置java环境(jdk8)(Hadoop之旅2)https://blog.csdn.net/qq_26373925/article/details/97413978本文主要内容:0.克隆虚拟机1.配置ssh免密登录之前我们已经在虚拟机(master)上配置好了java环境,现在开始将master克隆为虚拟机node1和node20.克隆..._ubuntu18.04 如何用主机名免密登录
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Ubuntu18.04下安装配置hadoop-3.1.2完全分布式集群(Hadoop之旅4)

上一篇:Ubuntu18.04下配置java环境,jdk8(Hadoop之旅2)https://blog.csdn.net/qq_26373925/article/details/97413978本文主要内容:0.安装配置hadoop-3.1.2集群规划: 三节点hadoop环境 (也就是三台 Ubuntu虚拟机,先配置好一台,之后再进行克隆)master装载软件: hadoop..._ubuntu hadoop3.1.2完全分布式搭建
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Python一行代码实现按指定长度分段切割字符串或列表

需求是给定一个字符串,然后按一个固定的长度将其分割成多份。效果:cutText(呵呵哒,1) #执行[呵, 呵, 哒] #输出cutText(呵呵哒,2) #执行[呵呵, 哒] #输出cutText(呵呵哒,3) #执行[呵呵哒] #输出cutText(呵呵哒,5) #执行[呵呵哒] #输出代码:def cutText(te..._python分割字符串按固定长度
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Python爬虫取osu!官网上的地区玩家排行,保存数据到json文件及mysql数据库

osu!是一个国际性的音乐游戏,地区排行榜长这样:这是地址 https://osu.ppy.sh/rankings/osu/performance?country=CN因为总共有200页,所以写了个脚本抓数据可以对各个地区的玩家进行分析:有哪些玩家疑似开了小号,谁pp/pc涨很快,等等等等地区不光是我所展示的CN,也可以是US、HK、TW等等爬取数据用到了 BeautifulSou..._python储存玩家资料代码
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Python时间日期处理:获取当前时间日期,可精确到微秒,时间日期,字符串与时间戳相互转换,简单实用

获取当前时间日期,精确到微秒,时间日期字符串与时间戳相互转换,字符串转时间戳在python里处理时间总要用到 time 和 datetime 这两个库,有时候就很麻烦,于是我就整合了一下这两个东西,方便使用。我这几个函数都支持精确到微秒的转换,应该还算比较方便的了开箱即用,先来看看效果使用 / usage:函数 getTime():获取当前时间戳或者时间字符串,可精确到微..._pandas 时间戳转为微秒
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Saleor:基于Python、Django、GraphQL、React.js的开源免费无头电子商务平台,介绍及安装配置详细教程(1)后端 GraphQL api 示例数据 管理员账号

本文由 PurePeace 原创项目:saleor简介:开源的无头电子商务平台(商城&网店)官网:https://saleor.io/github:https://github.com/mirumee/saleorstars:6.7k演示(商城):https://pwa.saleor.io/演示(后台):https://pwa.saleor.io/dashboard/..._saleor.io
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Saleor:基于Python、Django、GraphQL、React.js的开源免费无头电子商务平台,介绍及安装配置详细教程(2)前端 商城页面

本文由 PurePeace 原创上一篇教程主要介绍了saleor项目,saleor后端GraphQL服务、PostgreSQL数据库的安装配置,地址在这:https://blog.csdn.net/qq_26373925/article/details/104265313现在,我们来安装saleor的前端github:https://github.com/mirumee/saleor..._saleor python
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0

Saleor:基于Python、Django、GraphQL、React.js的开源免费无头电子商务平台,介绍及安装配置详细教程(3)Dashboard 管理后台

本文由 PurePeace 原创上一篇教程主要介绍了saleor前端服务的安装配置,地址在这:https://blog.csdn.net/qq_26373925/article/details/104270046现在,我们来安装saleor的dashboard(管理后台)github:https://github.com/mirumee/saleor-storefrontdemo:..._saleor admin
分类: 其他 发布时间: 07-31 12:02 阅读次数: 0