自然语言处理数据集集锦（持续更新ing...）

业界资讯 2023-06-05 00:21:34 阅读次数: 0

诸神缄默不语-个人CSDN博文目录

最近更新时间：2023.5.30
最早更新时间：2023.4.25

文本摘要主题的数据集见我之前写的另一篇博文：文本摘要数据集的整理、总结及介绍（持续更新ing…）
智能司法主题的数据集我准备等项目结束后发布。
其他NLP数据集见下：

1. 语料库

1.1 中文

2. QA数据集

2.1 英文

QQP First Quora Dataset Release: Question Pairs - Data @ Quora - Quora

3. 对话系统

3.1 open-domain

3.1.1 中文

4. 多模态

4.1 图文匹配

Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

5. NLG

5.1 复述

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations
1. Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
2. Para-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

5.2 代码生成

HumanEval Dataset | Papers With Code

6. 自然语言推理NLI

6.1 集锦

6.2 英文

SNLI https://nlp.stanford.edu/projects/snli/

5. 其他集成性项目 / benchmark

5.1 中文

5.2 中文多模态

MUGE(Multimodal Understanding and Generation Evaluation)

5.3 英文

SemEval
BIG-bench
1. 官方GitHub项目：google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
2. 论文：Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
Multi-task Language Understanding on MMLU

5.4 多语言

GlobalBench: A Benchmark for Global Progress in Natural Language Processing

6. 文本分类

6.1 多语言

Taxi1500 Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

猜你喜欢

转载自blog.csdn.net/PolarisRisingWar/article/details/130349309

自然语言处理数据集集锦（持续更新ing...）

各种工具集锦（持续更新ing...）

Windows常用小技巧集锦（持续更新ing...）

在线LLM应用集锦（持续更新ing...）

文本摘要数据集的整理、总结及介绍（持续更新ing...）

自然语言处理数据集

NLP-自然语言处理入门（持续更新）

自然语言处理评测汇总（持续更新）

查漏补缺，持续更新ing...

linux综合架构持续更新ing...

【板子】数论基础（持续更新ing...）

Python网页开发（持续更新ing...）

LLM的理论古往今来（持续更新ing...）

fitlog使用教程（持续更新ing...）

对比学习（持续更新ing...）

textgen教程（持续更新ing...）

prompt工程（持续更新ing...）

自然语言处理资料集和公开数据集

按照功能划分的实用ChatGPT及其他大规模预训练语言模型衍生工具集锦（持续更新ing...）

自然语言处理相关数据集和语料

分享福利——自然语言处理常用数据集

自然语言处理概述(前沿、数据集、下游任务)

Python3中对时间的处理（持续更新ing...）

推理数据集（持续更新ing…）

数据结构专题（更新ing...）

【吴恩达深度学习】自然语言处理---个人总结（持续更新）

网页样式——各种炫酷效果持续更新ing...

Flume常见错误整理（持续更新ing...）

内表操作笔记（持续更新ing...）

sklearn手册（持续更新ing...）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)