大创之旅

2020/11/18开更以此记录大创的一路风景,待日后回看,如果也能帮到与我年龄相仿的各位,那是再好不过的事情了。首先,让我们一起来认识大创大创包括内容(分为三个类别):①创新训练项目:本科生个人或团队,在导师指导下,自主完成创新性研究项目设计、研究条件准备和项目实施、研究报告撰写、成果(学术)交流等工作。特点:1) 可报名额多(约占60%)2) 需要期刊论文方可结题,难度系数高3) 更有利于社科或自然学科4) 受指导老师影响大,个人选择性不强,更像是给指导老师打工②创业训练
分类: 其他 发布时间: 03-27 10:56 阅读次数: 0

“吴恩达deeplearning.ai”学习笔记(p1-p6:第一课时第一章:神经网络的基本概念)

深度学习“深度学习”:指训练神经网络1. 神经网络的基本概念1.1神经元(此例用以体会单个神经元的形式:假如我们要建立房价的预测模型,一共有六个房子。我们已知输入x即每个房子的面积(多少尺或者多少平方米),还知道其对应的输出y即每个房子的价格。根据这些输入输出,我们要建立一个函数模型,来预测房价:y=f(x)。ReLU函数(修正线性单元):函数开始为0,然后是一条直线1.2神经网络:是神经元(隐藏单元)的叠加,同时只需要给出输入特征x和输出y(基于一定数量的训练集),所有中间过程能够自己完成
分类: 其他 发布时间: 03-27 10:56 阅读次数: 0

“吴恩达deeplearning.ai”学习笔记(p7-p24:第一课时第二章:神经网络编程的的基础知识)

2.神经网络编程的基础知识2.1常用的符号:(x,y)——表示一个单独的训练样本,x作为特征向量输入,标签y值为0或1m:{(x(1),y(1)),(x(2),y(2))……(x(m),y(m))}——训练集由m个样本组成m_train——训练集样本数目m_test——测试集样本数目2.2logistic回归的模型理解:1) 是一个用于监督学习问题中的学习算法,当输出是0/1时,则为一个二元分类问题;2) 二分分类的问题的目标往往是训练出一个分类器,它以图片的特征向量作为x的输入,通过神经
分类: 其他 发布时间: 03-27 10:56 阅读次数: 0

“吴恩达deeplearning.ai”学习笔记(p25-p35:第一课时第三章:实现一个神经网络)

目录上接(第二章:神经网络编程的基础知识)3.1神经网络概览 3.2神经网络表示3.3计算神经网络的输出3.4多个样本的向量化3.5向量化实现的解释3.6激活函数3.6.1 sigmoid函数3.6.2 tanh(z)(双曲正切函数)3.6.3 ReLU函数3.7为什么需要非线性激活函数?3.8激活函数的导数3.9神经网络的梯度下降算法的具体实现3.10(选修)直观理解反向传播(略)3.11随机初始化 3.1神经网络概览统一规定:【】表示神经网络层;()表示
分类: 其他 发布时间: 03-27 10:56 阅读次数: 0

“吴恩达deeplearning.ai”学习笔记(p36-p44:第一课时第四章:深度神经网络)

目录上接(第三章:实现一个神经网络)第四章:深度神经网络4.1深层神经网络4.2前向和反向传播 4.2.1前向传播 4.2.2反向传播4.3深层网络中的前向传播4.4核对矩阵的维数4.5向量化实现的解释4.6搭建深层神经网络块4.7参数vs超参数4.8深度学习和大脑的关系第四章:深度神经网络4.1深层神经网络层数=隐藏层数+输出层用来描述深度神经网络的符号约定:①L——表示神经网络的层数②n^[l]——表示节点的数量,或者l层上的单元数量③a^[l]——表示
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

“吴恩达深度学习”第二周编程代码汇总(复现猫咪识别神经网络)

目录编程作业:使用Numpy的基础Python、logistic回归编程语言:Python第1部分:使用Numpy的Python基础知识(可选赋值),用numpy构建基本函数1.1 - sigmoid函数,np.exp()的一些前提介绍1.2 练习:使用numpy实现sigmoid函数1.3 sigmoid函数的梯度计算1.4 数组维度的重塑1.5 规范化矩阵的行1.6 广播(Broadcasting )和softmax功能第二部分:向量化2.1实现L1和L2损失函数
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅(第一章:爬虫基础简介)

b站视频参考:2020年python爬虫全套课程本文下接第二章:爬虫开发-requests模块的学习第一章:爬虫基础简介1.1爬虫简介1.1.1 什么是爬虫?通过编写程序,模拟浏览器上网(爬取),然后让其去互联网上抓取数据的过程。1.1.2 爬虫的价值爬取的数据进行用于实际应用就业、商业化1.2爬虫合法性探究法律不禁止具有违法风险爬虫可能抓取受到了法律保护的特定类型的数据或信息爬虫干扰了被访问网站的正常运营1.3爬虫初始深入1.3.1爬虫的主要应用场景:通用爬
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第二章:爬虫开发-requests模块)

- 是python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 - 用于模拟浏览器发送请求。
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第三章:数据解析(正则法))

第三章:数据解析分类:正则法bs4xpath(通用性较强)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储①进行指定标签的定位②标签或者标签对应的属性中存储的数据进行提取(解析)回顾—— 聚焦爬虫:爬取页面中指定的页面内容;而获得相应的数据信息之后的处理我们就称之为数据解析。编码流程指定url发起请求获取响应数据数据解析持久化存储3.1正则法3.1.1-python正则表达式(regular expression——regex
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第三章:数据解析(bs4法))

1.数据解析步骤标签定位提取标签,标签属性中存储的数据值2.bs4数据解析的原理实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装pip install bs4pip install lxml使用实例化BeautifulSoupfrom bs4 import BeautifulSoup对象的实例化方法①:将本地的html文档中的数据加载到该对象中用
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第三章:数据解析(xpath法))

1.xpath解析简介最常用且最便捷高效的一种解析方式。通用性很好xpath解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获环境的安装pip insatll lxml如何实例化一个etree对象①.将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)②可以从互联网上获取的源码数据加载到该对象中etree.HT
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

“吴恩达deeplearning.ai”学习笔记(p47-p60:第二课时第一章:超参数调试、正则化以及优化)

1.机器深度学习的实操课程 1.1训练_开发_测试集 1.2偏差_方差 1.3机器学习基础 1.4正则化 1.5为什么正则化可以减少过拟合? 1.6Dropout正则化 1.7理解Dropout 1.8其他正则化方法 1.9归一化输入 1.10梯度消失于梯度爆炸 1.11神经网络的权重初始化 1.12梯度的数值逼近 1.13梯度检验 1.14关于梯度检验实现的注记...
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第四章:验证码识别)

上接: 第三章:数据解析(xpath法)第四章:验证码是网页制定的一种反爬机制,需要识别验证图片中的数据,用于模拟登录。识别验证码的操作:人工肉眼识别(不推荐)第三方自动识别(推荐但要收费)超级鹰图鉴4.1超级鹰平台的操作首先就是登录/注册操作:进入用户中心之后确认自己的题分>10分,没有的话就充钱(1元=1000分)题分准备之后,进入软件ID——生成一个软件ID——此时生成的软件ID的数字之后有用:然后进入开发文档,将相应的python代码下载下来在本
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第五章:模拟登录+session对象+cookie值)

上接:第四章:验证码识别1.模拟登录用于爬取某些用户的信息。2.对人人网进行模拟登录的分析2.1 弄清人人网登陆的流程输入用户名、密码、验证码(验证码需要输入错误三次密码才会出现)pic_center找到“登录”button右键——检查——勾选“preserve log”(保留日志)点击登录按钮在捕获到的数据包中点击“login”对应的数据包查看相关详细信息发现这是一个post请求,同时post请求中会携带之前录入的登录信息(用户名,密码,验证码……)
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

python爬虫实战之旅( 第六章:代理)

1.背景概要1.1IP反爬机制:一般的门户网站会对每个访问的IP在一段时间内进行跟踪,如果这个IP的访问请求超出了一定的阈值,网站就会自动拦截这个IP的请求,并且断开信息的传送。1.2 代理:破解IP这种反爬机制2.代理的概要定义:即代理服务器,就是网络信息中的一个中转站。2.1代理的作用:突破自身IP访问的限制可以隐藏自身真实IP2.2代理相关的网站:快代理西祠代理http://ip.2993.net/www.goubanjia.com2.3代理IP的类型:h
分类: 其他 发布时间: 03-27 10:55 阅读次数: 0

“吴恩达深度学习”第三周编程代码汇总(实现一个神经网络)

前言这篇博客主要记录"吴恩达depplearning系列课程"第三周编程作业代码+自己的补充理解的相关内容,以作为学习记录。学习过程中借鉴了各位大佬的代码,想要追根溯源的朋友可以看这几位大佬的博客:大树先生的博客(英文版),何宽(中文版)作为初学者,本文的代码是自己当前能做到的”终极满意缝合怪“,同时部分原搬的代码也加了很多注释,便于理解。目录编程练习环境:Pycharm 2017.1/python 3.8第1部分:需要准备的Packages1.1 - sigmoid函数,np.exp()的
分类: 其他 发布时间: 03-27 10:54 阅读次数: 0

python爬虫实战之旅( 第七章:异步爬虫(线程池法))

上接: 第六章:代理下接:第七章:异步爬虫(协程法)1.高性能异步爬虫1.1 目的在爬虫中使用异步实现高性能的数据爬取操作。1.2 实质一个线程下有多个任务,当任务遇到I/O需要等待时就执行其他任务
分类: 其他 发布时间: 03-27 10:54 阅读次数: 0

python爬虫实战之旅( 第七章:异步爬虫(协程法))

支持异步的框架演变历史:tornado、fastapl、django 3.x asgi、aiohttp1.协程定义:协程不是计算机提供的,而是通过程序人为创造;即让一个线程能够在代码中游走(在流程中随意切换),使代码切换执行。1.1 实现协程的方法使用第三方模块(例如早期的greenlet模块)使用yield关键字使用python3.4引入的asyncio装饰器使用python3.5定义的关键字async、await1.1.1 greenlet实现协程安装:pip install
分类: 其他 发布时间: 03-27 10:54 阅读次数: 0

python爬虫实战之旅( 第八章:selenium模块)

1.selenium模块1.1 selenium模块与爬虫之间的关系:便捷的获取网站中动态加载的数据便捷实现模拟登录1.2 selenium模块定义:是基于浏览器自动化的一个模块selenium使用流程:1.3 准备工作环境安装:pip install selenium下载一个浏览器的驱动程序:谷歌浏览器驱动程序下载路径注意下载版本与自己电脑上浏览器的版本要匹配,将下载好的exe程序文件复制到自己的python编译器的环境文件里。把下载好的驱动程序复制到自己当前的p
分类: 其他 发布时间: 03-27 10:54 阅读次数: 0

python爬虫实战之旅(12306模拟登录+验证码识别+滑块验证)

上接: 第八章:selenium模块补充:这一节的验证码识别是通过第三方平台——超级鹰;超级鹰方面的操作可以看我之前记录的这篇博客:超级鹰平台的使用1. 12306模拟登录编码流程:使用selenium打开登陆页面对当前selenium打开的这张页面进行截图对当前图片局部区域(验证码图片)进行裁剪好处:将验证码图片和模拟登录进行一一对应使用超级鹰识别验证码图片(返回值为:坐标)输入用户名,密码点击登录按钮会跳出一个页面显示需要滑块验证2. 写代码实验的过程中遇到的问题:
分类: 其他 发布时间: 03-27 10:54 阅读次数: 0