【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数 - 代码天地

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

其他 2021-02-09 07:47:47 阅读次数: 0

目录：NYT-Wiki数据集分析

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例
 【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数
 【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 绘制Relation分布图

第一节，我们查看了每条数据的组成，并将每条数据都转化成json格式，方便后续操作对数据的取用。

本节统计一下数据集。

1. 统计数据集

目的就是填写下面表格中。

数据集	类别数（关系数）	实例数（句子数）
Train Set
Valid Set
Test Set

获取上表所示统计信息包括两步：

读数据集，
统计每个数据集中class和intances的个数。

2.代码

2.1 用json格式的数据集

import json
def dataset_description(path):
    rel_list = [] # 存放relation的列表
    count = 0 # 存放instances的计数
    with open(path, 'r', encoding = 'utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = json.loads(line) #loads后面括号中是字符串， load后面括号中写文件名字
            if line['relation'] not in rel_list:
                rel_list.append(line['relation'])
        count = len(lines)
        print(str(path)+"中类别数{}，实例数{}".format(len(rel_list), count))
    return rel_list, count


rel_list, count = dataset_description(train_path)
rel_list, count = dataset_description(valid_path)
rel_list, count = dataset_description(test_path)

2.2 用原数据集

def dataset_description()
	rel_list = []
	count = 0
	with open(path, 'r', encoding = 'utf-8') as f:
	    for line in f.readlines():
	        line = line.strip().split('\t') #loads后面字符串， load(文件名字)
	        if line[4] not in rel_list:
	            rel_list.append(line[4])
	        count += 1
	return rel_list, count

猜你喜欢

转载自blog.csdn.net/xiangduixuexi/article/details/107055274

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

ChatIE：通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取，并在NYT11-HRL等数据集上超过了全监督模型

COCO数据集80个类的实例数量

大数据实践（二）：对葡萄牙银行数据集的特征之间的关联关系进行分析和探索，对于现有营销方案给出建议。

关系抽取数据集标注BRAT和CoNLL标注格式区别

【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution

数据分析实例-MovieLens 1M 数据集

数据分析实例-USA 政府的数据集

从COCO数据集和VOC数据集提取特定的类别

杜凯杰教学数据分析：Logistic（逻辑回归）算法完整实例数据集建模处理，缺省值处理、类型转换、建模预测

cityscapes数据集上的类别统计分布

多元统计分析-橄榄油数据集

不同sqlserver实例数据交换

工厂模式实例数据分类导出

Mysql多实例数据库

rxjs使用of:举例数据的实例

使用python对label生成的xml及labelme生成的json数据集统计类别及类别的数量

COCO 数据集分析和coco API使用

机器学习 Rider数据集分析和预测

机器学习 CarRentalData数据集分析和预测

关系抽取数据集介绍

Python—实例方法，实例数据（类属性，实例属性）

Python-鸢尾花数据集/月亮数据集的线性LDA、k-means和SVM算法二分类可视化分析

第17节 R语言分析：生物统计数据集 R 编码分析和绘图

在数据分析过程中对合并的训练集和测试集进行标记

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

更多

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)