爬取简书后分析1

企业开发 2024-11-01 23:15:13 阅读次数: 0

import pandas as pd
import numpy as np

one = pd.read_pickle("jian_fen.pkl")
two = pd.read_pickle("jian_shu1.pkl")
# print(one)
data_list=[]
for name, data in zip(one["name"].values, two):
    info = np.array(data[0].split("\n")).reshape([-1, 2])
    topic = [i.split("\n")[:2] + i.split("\n")[-1].split() for i in data[1]]
    info = pd.DataFrame(data=info[:, 0].reshape([1, -1]), columns=info[:, 1])
    info.loc[:, "name"] = name

    topic_list = []
    for one_topic in topic:
        if "付费" in one_topic:
            if len(one_topic) == 9:
                one_topic = one_topic[:2] + [1] + one_topic[2:3] + one_topic[-5:-2] + [0]
            else:
                one_topic = one_topic[:2] + [1] + one_topic[2:3] + one_topic[-6:-2]
        else:
            if len(one_topic) == 8:
                one_topic = one_topic[:2] + [0] + one_topic[-6:-2] + [0]
            else:
                one_topic = one_topic[:2] + [0] + one_topic[-7:-2]
        try:
            one_topic = pd.DataFrame(columns=["标题", "文本", "付费", "钻", "浏览", "评论", "喜欢", "赏"],
                                     data=np.array(one_topic).reshape([1, -1]))
            topic_list.append(one_topic)
        except:
            print("time")
    try:
        topic = pd.concat(topic_list)
        info=pd.concat([info]*len(topic))

        one_data=pd.concat([info,topic],axis=1)
        data_list.append(one_data)
    except:
        print("kong")
data=pd.concat(data_list)

pd.to_pickle(data,"jian_fen2.pkl")

这段代码的主要目的是处理和合并两个Pandas DataFrame对象，并将结果保存为Pickle文件。以下是代码的详细解释：

导入必要的库：

import pandas as pd
import numpy as np

这里导入了pandas和numpy库，分别用于数据处理和数值计算。
2. 读取Pickle文件：

one = pd.read_pickle("jian_fen.pkl")
two = pd.read_pickle("jian_shu1.pkl")

这里读取了两个Pickle文件，并将它们分别赋值给变量one和two。
3. 初始化一个空列表用于存储处理后的数据：

data_list = []

遍历one中的"name"列和two中的数据：

for name, data in zip(one["name"].values, two):

这里使用zip函数将one中的"name"列的值和two中的数据一一对应起来进行遍历。
5. 处理data中的信息：

info = np.array(data[0].split("\n")).reshape([-1, 2])
topic = [i.split("\n")[:2] + i.split("\n")[-1].split() for i in data[1]]
info = pd.DataFrame(data=info[:, 0].reshape([1, -1]), columns=info[:, 1])
info.loc[:, "name"] = name

将data[0]按行分割，并转换为NumPy数组，然后重塑为两列的格式，第一列为值，第二列为列名。
将data[1]中的每个元素按行分割，提取前两行和最后一行的数据。
将info转换为Pandas DataFrame，并添加"name"列。

处理每个主题（topic）：

topic_list = []
for one_topic in topic:
    # 省略了具体的处理逻辑，见下文
    try:
        one_topic = pd.DataFrame(columns=["标题", "文本", "付费", "钻", "浏览", "评论", "喜欢", "赏"],
                                 data=np.array(one_topic).reshape([1, -1]))
        topic_list.append(one_topic)
    except:
        print("time")

遍历每个主题，根据是否包含"付费"字段进行不同的处理。
将处理后的主题转换为Pandas DataFrame，并添加到topic_list列表中。

合并数据和主题信息：

try:
    topic = pd.concat(topic_list)
    info = pd.concat([info] * len(topic))
    one_data = pd.concat([info, topic], axis=1)
    data_list.append(one_data)
except:
    print("kong")

使用pd.concat合并topic_list中的所有DataFrame。
将info DataFrame复制topic的长度次，以便与topic合并。
将info和topic横向合并，并将结果添加到data_list列表中。

合并所有处理后的数据：

data = pd.concat(data_list)

将data_list中的所有DataFrame合并成一个大的DataFrame。
9. 保存结果为Pickle文件：

pd.to_pickle(data, "jian_fen2.pkl")

将合并后的DataFrame保存为Pickle文件，以便后续使用。

猜你喜欢

转载自blog.csdn.net/weixin_32759777/article/details/143092774

爬取简书后分析1

爬取简书后分析2

爬取简书后分析0

爬取简书1

爬取简书

爬取简书0

scrapy简书整站爬取

利用Python爬取简书

爬取简书图片(使用BeautifulSoup)

对爬取中国裁判文书网分析续篇1

数据爬取(1)

爬取京东商品并分析

爬虫--爬取图片（1）

1)python 爬取小说

网络数据爬取（1）

实战：爬取简书之搭建程序框架

博客搬家系列（四）-爬取简书文章

爬虫实战----简书的爬取和存储

简书全站爬取 mysql异步保存

实例学习——爬取简书网热评文章

爬虫实战——简书文章爬取（selenium+Chrome）

爬虫练习-爬取简书网热评文章

python爬虫爬取贴吧图片的最简思路

简单的爬取(不分析模式的源码爬取

爬取在行平台数据（1）——动态加载页面分析

事后分析

【Alpha】事后分析

【Gamma】事后分析

团队事后分析

复审与事后分析

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)