Python 将parquet文件转换为csv文件

物联网 2024-11-01 14:29:13 阅读次数: 0

Python 将parquet文件转换为csv文件

使用pyarrow插件将parquet文件转换为csv

使用pyarrow插件将parquet文件转换为csv


```python
import os
import pyarrow.parquet as pq
from concurrent.futures import ThreadPoolExecutor
import csv
import time

# 定义一个函数来处理单个 Parquet 文件
def process_parquet_file(parquet_file, csv_file):
    try:
        start_time = time.time()  # 记录开始时间

        # 打开 CSV 文件，使用追加模式
        # csv_file_handle = open(csv_file, 'a', newline='')
        csv_file_handle = open(csv_file, 'a', newline='', encoding='utf-8')

        # 获取 Parquet 文件的字段名
        parquet_data = pq.ParquetFile(parquet_file)
        field_names = parquet_data.schema.names

        # 写入 CSV 文件的标题行（只在文件创建时写入一次）
        if os.path.getsize(csv_file) == 0:
            csv_writer = csv.writer(csv_file_handle)
            csv_writer.writerow(field_names)

        # 逐块读取 Parquet 数据并写入 CSV 文件
        for i in range(parquet_data.num_row_groups):
            row_group = parquet_data.read_row_group(i)
            df = row_group.to_pandas()
            # 过滤特殊字符或替换为合适的占位符
            df = df.apply(lambda x: x.replace('\ue108', '') if isinstance(x, str) else x)
            df.to_csv(csv_file_handle, mode='a', header=False, index=False)

        # 关闭文件句柄
        csv_file_handle.close()

        end_time = time.time()  # 记录结束时间
        elapsed_time = end_time - start_time
        print(f"{parquet_file} 处理完毕，用时 {elapsed_time:.2f} 秒")
    except Exception as e:
        print(f"处理 {parquet_file} 时出现错误: {str(e)}")
    finally:
        print(f"{parquet_file} 处理完毕，用时 {elapsed_time:.2f} 秒")

if __name__ == "__main__":
    datadir = './'  # 包含 Parquet 文件的文件夹
    parquet_files = [os.path.join(datadir, f) for f in os.listdir(datadir) if f.endswith('.parquet')]

    # 创建线程池并行处理 Parquet 文件
    with ThreadPoolExecutor(max_workers=4) as executor:
        for parquet_file in parquet_files:
            # 生成输出 CSV 文件名（根据 Parquet 文件名）
            csv_file = os.path.splitext(parquet_file)[0] + '.csv'

            # 使用线程池处理 Parquet 文件
            executor.submit(process_parquet_file, parquet_file, csv_file)

    print("所有文件处理完毕")

注意parquet文件存放路径。

猜你喜欢

转载自blog.csdn.net/qq_35995691/article/details/133702327

Python 将parquet文件转换为csv文件

Python笔记：将json文件转换为csv文件

利用python将txt文件转换为csv

【Python】python把数据转换为csv文件

python——csv文件转换为shp

Python 导入通讯录：将.csv文件转换为.vcf文件

csv文件转换为shp(Python实现) python——csv文件转换为shp

python将py文件转换为pyc

Python提取netCDF数据并转换为csv文件

python将图片转换为csv

使用Python将字典转换为CSV

python将list转换为csv

python 将txt文件转换成csv文件

python 将xml文件转换成csv文件

python利用pandas将excel文件转换为txt文件

Python将npy文件转换为mat文件

使用Python将pdf文件转换成word,csv

Python脚本：将Word文档转换为Excel文件

【python】修改文件后缀，将JPG转换为PNG/PNG转换为JPG

将CSV文件转换为TXT文件

python ipynb文件转换为python文件

ipynb转换为python文件

python 将数组元素存入.csv文件中；csv内部实现行列转换；

eclipse将pyqt5将QtDesigner生成的ui文件转换为可执行的Python文件

利用python将json数据转换为csv格式的方法

python3将json格式转换为csv格式

Python将大的csv文件拆分多个小的csv文件

如何利用python将mp4文件转换为gif文件 + 代码分享

码力十足学量化|用Python将pdf文件转换为txt文件

如何将 Jupyter Notebook (.ipynb) 文件转换为 Python (.py) 文件

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)