初试Python爬虫下载pdf - 代码天地

初试Python爬虫下载pdf

其他 2018-06-02 18:06:56 阅读次数: 0

最近刚学完Boyd的Convex Optimization，真是对Boyd神佩服得五体投地。在他的lecture slides末尾发现原来还有进阶课程Stanford的ee364b，那本convex optimization只包括了ee364a，然而ee364b没有现成的完整slides一次性下载，只好写个爬虫挨个下载保存slides，在ee364b里的内容更加专业深入，估计实际很少用到。然后我把爬虫的代码贴上来，还好他们的网页结构比较简单，代码量不大。下载好的文件里有些是空白的，回网站一查发现确实是他们没有在里面留东西，就这样吧。

import requests
import re
import os
from bs4 import BeautifulSoup

def GetPage(url):
    page = requests.get(url)
    html = page.text
    return html

def GetList(html):
    soup = BeautifulSoup(html, "html5lib")
    list = soup.find_all(href=re.compile("lectures/"))
    pdfs = []
    for li in list:
        if (li.get('href'))[-4:] == ".pdf":
            pdfs.append(li.get('href'))
    return pdfs
    
def DownloadPdf(pdf,root_url):
    path = "C:/Users/Downloads/cvx/" + pdf[9:]
    urls = root_url + pdf
    r = requests.get(urls)
    f = open(path, "wb")
    f.write(r.content)
    f.close()
    return urls

url = "https://web.stanford.edu/class/ee364b/lectures.html"
root_url = "https://web.stanford.edu/class/ee364b/"
#print(GetList(GetPage(url)))
pdfs = GetList(GetPage(url))
for pdf in pdfs:
    print("Download finished: "+DownloadPdf(pdf, root_url))

还有计划把Standford的cs224n的lecture slides下载下来慢慢看，就在这个代码的基础上改吧

猜你喜欢

转载自blog.csdn.net/albertyzy/article/details/80547435

初试Python爬虫下载pdf

python——爬虫初试。

Python 网络爬虫初试

用python爬虫批量下载pdf

精通Python爬虫框架Scrapy PDF下载

用Python 爬虫批量下载PDF文档

初试python爬虫之：豆瓣电影爬虫

爬虫初试

Python Scrapy 爬虫（二）：scrapy 初试

python3 爬虫（初试牛刀）

《Python网络爬虫实战胡松涛编著》PDF版下载

python3爬虫下载网页上的pdf

《Python网络爬虫实战》PDF版电子书下载

《PYTHON网络爬虫从入门到实践》pdf 附下载链接

利用python3爬虫下载图片、pdf文档

《Python 网络爬虫权威指南》分享 pdf下载

python爬虫开发与项目实战PDF文档免费下载

精通Python网络爬虫PDF文档免费下载

Python批量爬虫下载PDF文件代码实现

python知网爬虫论文pdf下载+立即可用（动态爬虫）

python爬虫scrapy框架入坑(二)：初试Scrapy

初试python爬虫（我爬我自己的博客）

python初试

初试python

java爬虫初试（二）

python批量下载pdf

Python编程 PDF下载

流畅的Python PDF下载

A Byte of Python PDF下载

Python 3网络爬虫开发实战-崔 PDF下载

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)