防爬虫网站用 selenium破解 - 代码天地

防爬虫网站用 selenium破解

其他 2021-02-01 12:54:44 阅读次数: 0

#!/usr/bin/env python  获取单个信息
# coding=utf-8
import datetime
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import selenium.webdriver.support.ui as ui

browser = webdriver.Firefox()

def is_visible(locator, timeout = 10):
    try:
        ui.WebDriverWait(browser, timeout).until(EC.visibility_of_element_located((By.XPATH, locator)))
        return True
    except TimeoutException:
        return False
    
browser.get("http://zssom.sysu.edu.cn/zh-hans/teacher/377")
is_visible('/html/body/div[2]/div[2]/div[1]')
html = browser.page_source
content = BeautifulSoup(html, "lxml")
description = content.find(attrs={
    
    "name":"description"})['content']
print(description)

#以下还有问题 请小心 无法运行
#以下为中山医实例 此处向中山大学致以崇高的敬意与祝福 欢迎提意见
#!/usr/bin/env python 如有侵权 亲联系 删文章哦
# coding=utf-8
import datetime
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import selenium.webdriver.support.ui as ui

browser = webdriver.Firefox()

def is_visible(locator, timeout = 10):
    try:
        ui.WebDriverWait(browser, timeout).until(EC.visibility_of_element_located((By.XPATH, locator)))
        return True
    except TimeoutException:
        return False
#编辑 url
i =350
while i <381:
    i=i+1
    a = str(i)
    b = "http://zssom.sysu.edu.cn/zh-hans/teacher/"
    url= b+a
    browser.get(url)
    
    if is_visible('/html/body/div[2]/div[2]/div[1]'):
        html = browser.page_source
        content = BeautifulSoup(html, "lxml")
        #获取老师信息内容
        description = content.find(attrs={
    
    "name":"description"})['content']
        print(description)
    else:
        print("获取内容为空")
else:
    print("over")

tips
1.用selenium 模拟浏览器行为
2.拼接字符串设计url
3.bs4 获取节点数据

猜你喜欢

转载自blog.csdn.net/qq_42676042/article/details/106939185

防爬虫网站用 selenium破解

用Python输出有防爬虫系统网站的源码

网站防爬虫

抓取防爬虫的网站信息

用burpsuite破解网站密码

爬虫碰到的最多验证码就是滑块验证码！用Selenium暴力破解！

用JAVA爬虫爬网站的图片

用Selenium破解滑块验证码

利用selenium和python 爬虫网站代码

Python爬虫使用selenium抓取网站数据

H漫网站破解+爬虫+整合网站实例

用python爬虫抓取视频网站所有电影

网络爬虫——从网站中提取有用的数据

用爬虫爬取某妹子图片网站图片

Python爬虫——selenium模拟京东网站登录（一）

网站识别selenium爬虫的原理以及解决方法

Selenium实战【滑动验证码破解】【JAVA爬虫】

Python爬虫项目实战：看我用爬虫批量下载网站图片

破解百度图片防爬虫机制（百度图片爬虫）

python/爬虫：用selenium控制已打开的浏览器

从零开始学习Web自动化：用Python和Selenium实现网站登录功能！

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

用Python破解有道翻译反爬虫机制

用Python暴力破解人家网站，获取VIP账户密码！

爬虫系列爬虫的Robots协议请求库之requests库解析库beautifulsoup 爬取汽车之家新闻搭建免费代理池验证码破解模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy 架构介绍 scrapy 框架的安装与启动 scrapy项目架构与配置文件 Scrapy中response属性以及内容提取爬取数据并解析 Scrapy 持久化

网站防黑

网站防篡改脚本

网站防刷限流

有用的网站

有用网站

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)