python复制数据集，从而生成大文件数据集，用于测试 - 代码天地

python复制数据集，从而生成大文件数据集，用于测试

业界资讯 2020-07-29 13:11:13 阅读次数: 0

需求驱动

在这里插入图片描述如图，我有2个数据集，但文件大小总共45M，我要测试如下新增：
产品经理要求能够上传1T的文件，所以我要创建1T的文件上传。

代码设计

1、思路
（1）先遍历文件名称，生成一个列表
（2）复制文件，文件夹末尾加上00000001，如果列表存在该文件，将跳过复制
（3）代码可以运行多次，每次在原有基础上递增

2、设计

import os
import shutil


def getFileInFolder(filepath):
    pathDir =  os.listdir(filepath)  # 获取filepath文件夹下的所有的文件名
    return pathDir


filepath = r"E:\training训练数据\ant_bees_data"  #  源文件所在文件夹路径

for i in range(13):

    oldants = os.path.join(filepath ,"ants") # 源文件路径
    oldbees =  os.path.join(filepath ,"bees")
    antsName = "ants{}".format(str(i+1).zfill(8)) # 新文件名称：文件名添加后缀，如00000001
    beesName = "bees{}".format(str(i+1).zfill(8))
    if antsName not in getFileInFolder(filepath):
        newants = os.path.join(filepath, antsName)  # 新文件路径
        shutil.copytree(oldants, newants)  # 拷贝文件
    if beesName not in getFileInFolder(filepath):
        newbees = os.path.join(filepath, beesName)  # 新文件路径
        shutil.copytree(oldants, newbees)  # 拷贝文件

3、效果展示
在这里插入图片描述
4、代码优化
如上是优化后的代码，应该节省了一些时间，不过还可以进一步优化，聪明的你，是否挑战一下呢？（复制代码，修改路径，就能运行哦！）

猜你喜欢

转载自blog.csdn.net/weixin_43431593/article/details/107606834

python复制数据集，从而生成大文件数据集，用于测试

Python统计数据集文件数

数据分析时利用 Python3 生成大量数据集CSV的通用脚本

python 读取TXT文件数据（字符或数值）存放在numpy数组中以及训练集测试集的处理（1）（个人笔记）

【解决】csv文件数据集集中在一列

linux ubuntu下载国外大文件、大型数据集（DDAD）

Python 生成带标签数据集的 CSV 文件

数据集处理之python生成.lst文件

Linux如何快速生成大文件

linux快速生成大文件

用于DataLoader的pytorch数据集

MXNET数据集制作，生成rec文件

用python将一个数据文件分为训练集和测试集

数据划分测试、验证集，文件转移

【Python那些事儿】准备数据——训练集和测试集

python 把数据分成训练集和测试集

数据集划分为训练集和测试集并生成标签--matlab代码

php Shell大文件数据统计并且排序

大文件数据安全传输如何做到！

大文件数据分片上传简单示例

大文件数据如何做到安全传输？

Python文件数据分割

Python 文件数据读写

Python读取txt文件数据(用于接口自动化参数化数据)

python csv文件数据写入和读取（适用于超大数据量）

python使用os模块，划分图片数据集，切割复制文件

python 文件复制,yolov5创建训练集与测试集

【深度学习数据集的自动切分，分别生成训练，验证，测试的txt文件】

【深度学习】使用python划分数据集为训练集和验证集和测试集并放在不同的文件夹(转载)

【TensoFlow学习笔记】进阶篇（一）— —如何制作自己的图片数据集（TFRecords文件生成训练集和测试集）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)