python爬虫模块之数据存储模块 - 代码天地

python爬虫模块之数据存储模块

其他 2018-06-12 22:22:50 阅读次数: 3

数据存储模块的话，目前我这用的比较多的是存储到mysql，所以下面的这个例子也是保存到mysql，用到了ORM映射的SQLAlchemy

,(ORM:Object-Relational Mapping，把关系数据库的表结构映射到对象上)，使用create_engine()来初始化数据库连接。

SQLAlchemy用一个字符串表示连接信息：

'数据库类型+数据库驱动名称://用户名:口令@机器地址:端口号/数据库名'

然后使用pandas tosql进行了保存，对于简单的数据保存，尤其是批量存储来说效率还是提高的，

也不需要写原生的sql语句但是如果有其他复杂的操作就只能sqlalchemy或pymysql配合用了

关于大概过程就是把字典list类型的数据转换成dataframe之后在操作，需要强调一下的是if_exists参数的含义

下面说一下关于if_exists的几个参数，都是对表来说的不是对于数据
fail的意思如果表存在，啥也不做
replace的意思，如果表存在，删了表，再建立一个新表，把数据插入
append的意思，如果表存在，把数据插入，如果表不存在创建一个表！

然后下面就看代码的实现吧

# _*_coding:utf-8 _*_
import  pandas as pd
from .config import *
from sqlalchemy import create_engine

class DataOutput(object):

    def __init__(self):
        # 引擎格式 mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8
        self.conn=create_engine(f'{DB_TYPE}+mysqldb://{USER}:{PASSWD}@{HOST}:{PORT}/{DataBase}?charset={Charset}')

    def store_data(self, data_dicts):
        if data_dicts is None:
            return None
        # data_dicts 保存成字典类别形式方便转换dataframe
        df=pd.DataFrame(data_dicts)
        pd.io.sql.to_sql(df, "sns_insight_log", con=self.conn, if_exists="append", index=False)

　　

猜你喜欢

转载自www.cnblogs.com/c-x-a/p/9175252.html

python爬虫模块之数据存储模块

mysql之数据存储模块——B+树系列

Python中的数据存储模块shelve的用法

flask使用外部存储模块之数据库的使用

python持久化存储模块（json，pickle等）

Classic AUTOSAR专题 | 存储模块简介

Android_StorageManager存储模块

嵌入式linux之go语言开发（八）存储模块的封装(一)

嵌入式linux之go语言开发（八）存储模块的封装(二)

spark存储模块之内存存储--MemeoryStore

Android数据库存储模块封装，让操作记录更好用可复用

python之异常、模块、文件、数据存储

【Spark102】Spark存储模块BlockManager剖析

nginx的FastDFS分布式存储模块测试方法

【输出文档】 Android 存储模块解析

IP-Guard 移动存储模块测试

nodeRed 源码分析6- storage 存储模块分析

深入剖析 RocketMQ 源码 - 消息存储模块

aizuda 低代码 OSS 文件存储模块 1.0.1 发布

python爬虫模块之HTML下载模块

python爬虫模块之HTML解析模块

python爬虫模块之调度模块

嵌入式linux之go语言开发（十二）参数配置文件存储模块开发

Python爬虫之requests模块

Python爬虫之BeautifulSoup模块

Python爬虫之request模块

python爬虫之re模块

ESP32 读取外部存储模块音频MAX98357模块播放

Python 爬虫之数据解析模块bs4基础

Python爬虫之数据存储

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)