最近更新时间:2023.5.30
最早更新时间:2023.4.25
文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理、总结及介绍(持续更新ing…)
智能司法主题的数据集我准备等项目结束后发布。
其他NLP数据集见下:
文章目录
1. 语料库
1.1 中文
- CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
- FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
- Index of /zhwiki/latest/
- PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力!
- 诗歌和音韵:THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
- WuDaoCorpora Text文本预训练数据集
2. QA数据集
2.1 英文
3. 对话系统
3.1 open-domain
3.1.1 中文
- https://huggingface.co/datasets/fnlp/moss-002-sft-data
- https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
- https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
- thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
- 中文对话指令集:OpenLabel-Chinese Conversations Dataset (OL-CC)
4. 多模态
4.1 图文匹配
5. NLG
5.1 复述
5.2 代码生成
6. 自然语言推理NLI
6.1 集锦
6.2 英文
5. 其他集成性项目 / benchmark
5.1 中文
- CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
- 中文医疗信息处理评测基准CBLUE
- 千言(LUGE)| 全面的中文开源数据集合
- funNLP
- brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
5.2 中文多模态
5.3 英文
- SemEval
- BIG-bench
- Multi-task Language Understanding on MMLU