爬虫实战----简书的爬取和存储 - 代码天地

爬虫实战----简书的爬取和存储

其他 2018-11-30 11:38:48 阅读次数: 0

网站：

https://www.jianshu.com/

网站数据结构分析：

滑轮拉到最下面：

这是一个懒加载，只有点击阅读更多的时候，才会有后续的数据，我们可以使用selenium。

并且可以设置点击的次数，代码如下：

browser = webdriver.Chrome()
browser.get('https://www.jianshu.com/')

for i in range(3):
    # 将滑轮滑到底部
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)

for i in range(5):
    # 尝试点击阅读更多的按钮
    try:
        button = browser.find_element_by_class_name('load-more')
        button.click()
        time.sleep(2)
    except Exception as e:
        pass

提取数据：

需要的数据都在a标签中，提取数据代码如下：

titles = browser.find_elements_by_class_name('title')

存储数据：

def db(titles):
    print(titles)
    db = pymysql.connect(host = 'localhost',user = 'root',password='123456',port=3306,db='images360',charset='utf8')
    cursor = db.cursor()
    for info in titles:
        # print(info)
        sql = "insert into  jianshu values('%s','%s')" % (info.text,info.get_attribute('href'))
        try:
            cursor.execute(sql)
            print('Successful')
            db.commit()
        except Exception as e:
            print('Failed',e)
    cursor.close()
    db.close()

数据库和表都是自己创建的。运行之后就可以获得自己想要的结果了。

创建数据库代码如下：

CREATE DATABASE images360

创建表的代码如下：

CREATE TABLE jianshu
(
title VARCHAR(255),
href VARCHAR(255)
)

猜你喜欢

转载自blog.csdn.net/qq_39138295/article/details/83899387

爬虫实战----简书的爬取和存储

爬虫实战——简书文章爬取（selenium+Chrome）

爬取简书

python爬虫系列之数据存储实战：爬取简书用户文章列表并保存

爬虫练习-爬取简书网热评文章

实战：爬取简书之搭建程序框架

scrapy简书整站爬取

利用Python爬取简书

爬取简书图片(使用BeautifulSoup)

爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

【python爬虫自学笔记】-----爬取简书网站首页文章标题与链接

小白scrapy爬虫之爬取简书网页并下载对应链接内容

21天打造分布式爬虫-简书整站爬取（十）

爬虫练习-爬取简书网用户动态信息（应对AJAX）

爬虫实战_爬取豆瓣图书利用csv库存储

爬虫实战利用BeautifulSoup爬取天气网存储postgresql

使用Selenium和chromedriver爬取简书部分文章

Python爬虫实战：用简单四步爬取小红书图片

scrapy框架+selenium驱动谷歌浏览器爬取简书网站存入mysql的网站级爬虫

博客搬家系列（四）-爬取简书文章

简书全站爬取 mysql异步保存

实例学习——爬取简书网热评文章

Python爬虫教程：简书文章的抓取与存储

python爬虫实战——爬取腾讯新闻！

爬虫实战_爬取静态单张图片

Python爬虫实战：爬取股票信息

爬虫实战爬取拉钩网

Python爬虫 | 爬取环境新闻实战

python爬虫爬取贴吧图片的最简思路

python爬虫笔记（三）requests模块深入—网络图片的爬取和存储

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)