爬取杭电oj所有题目 - 代码天地

爬取杭电oj所有题目

其他 2019-12-30 09:50:48 阅读次数: 0

杭电oj并没有反爬

所以直接爬就好了

直接贴源码（参数可改，循环次数可改，存储路径可改）

import requests
from bs4 import BeautifulSoup
import time

def write_in_file(number,string):#output function
    with open ('D:\\python\\python_code\\hdoj\\'+str(number)+".txt","a+",encoding='utf-8') as f:
        f.write(string)
        f.close()


link = "http://acm.hdu.edu.cn/showproblem.php?pid="
headers = {
    'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'    
}
for i in range (1503,1900):
    print("acquire the request now")
    r = requests.get(link+str(i),headers = headers,timeout = 10)
    print("acquire the reuest completed")
    soup = BeautifulSoup(r.text,"lxml")
    problem_title = soup.find("h1").text#get the title
    write_in_file(i,"question: "+problem_title+"\n")
    problem_des = soup.find_all("div",class_="panel_content") 
    the_title = soup.find_all("div",class_ ="panel_title")
    #print(the_title)
    print("write into file now")
    print("now write in the NO. "+str(i) +" file")
    len_of_the_title = len(the_title)
    for m in range(0,len_of_the_title):
        write_in_file(i,the_title[m].text+": "+problem_des[m].text+"\n")
    time.sleep(1)#sleep for one second

另：爬取纯粹是兴趣，无商业用途，侵删

希望对大家有所帮助

以上

猜你喜欢

转载自www.cnblogs.com/lavender-pansy/p/12118004.html

爬取杭电oj所有题目

用java爬取杭电oj已ac代码

杭电OJ题目 1000

杭电oj题目分类

python爬取HDU所有题目

杭电oj入门题目列表

杭电OJ（HDOJ）入门题目列表

【杭电OJ】4007 - Dave(枚举，尺取)

杭电oj1005取模找规律

杭电OJ 1017

杭电 OJ 1005

杭电oj

杭电OJ：1018

杭电oj 1106

杭电oj蟠桃

杭电oj的2023

杭电oj —— 2001

杭电oj —— 2000

杭电oj —— 2012

杭电oj —— 2030

杭电oj —— 2029

杭电oj —— 2028

杭电oj —— 2027

杭电oj —— 2026

杭电oj —— 2031

杭电oj —— 2020

杭电oj —— 2019

杭电oj —— 2018

杭电oj —— 2017

杭电oj —— 2004

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)