MySQL+pymysql数据清洗(一)

记录一次数据清洗--(准备工作)

背景:我所在的部门是公司的大数据组,这次的数据清洗只记录清洗过程,遇到的值得记录的问题(小问题忽略)。本人将严格保密公司商业信息!数据库的所有字段都是自己随意命名替代的,数据的任何相关信息都不会透露!

1、开启binlog防止误操作无法撤回、及时备份原表或某一时间段正确清洗过的表

修改MySQL安装目录里的my.inf文件,这个去网上搜大把有,无非就是添加几行信息,log-bin=/var/lib/mysql/mysql-bin 只写入这个也可以

2、开启MySQL服务,找一个数据库可视化工具(我用的Navicat)把你的.sql文件导进去,这个过程视文件大小,我的.sql文件在800MB~2.5GB之间已经很大了,导入的时候很费时间

首先你要在你的连接下新建一个数据库,右键运行sql文件,如果你的sql文件里有汉字要注意一下运行sql文件时的编码问题,选择utf-8

如果运行sql文件导入失败很可能是你的sql文件过大,去修改你的my.ini文件,在里面添加 max_allowed_packet = 【大小】

重新启动mysql,右键计算机-->管理-->服务 重启

3、安装pymysql pip install pymysql

链接你的数据库

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import pymysql
import time
from functions import deal_with_chinese, deal_with_number
import sys
reload(sys)
sys.setdefaultencoding('utf8')

db = pymysql.connect(host="localhost",user="root",password="123456",db="sun",port=3306,charset='utf8')
下一篇关于搭配sql语句进行清洗

猜你喜欢

转载自blog.csdn.net/qq_38322240/article/details/80580119