【AI实战】中文文本相似度模型、开源数据集合集

概念

文本相似度是指衡量两个文本的相似程度,通常我指语义的相似度。

相似度模型

无监督模型

TF-IDF

TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。

TF-IDF 常在向量空间模型中与余弦相似度一起使用,以判断两份文本之间的相似度。

BM25

BM25 算法的全称为 Okapi BM25,是一种搜索引擎用于评估查询和文档之间相关程度的排序算法,其中 BM 是 Best Match 的缩写。

LSA

潜在语义分析(LSA, Latent Semantic Analysis)的核心思想是将文本的高维词空间映射到一个低维的向量空间,我们称之为隐含语义空间。

基于 BERT 的模型

SBERT

论文链接:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》

BERT-Flow

paper : 《On the Sentence Embeddings from Pre-trained Language Models》
code : github/BERT-Flow

BERT-Whitening

code:bert_whitening

SBERT - Whitening

【最佳方法】先做 SBERT,再进行Whitening。

对比学习模型

对比学习包括:SimCSE、ConSERT、ESimCSE等。

SimCSE

论文链接:《SimCSE: Simple Contrastive Learning of Sentence Embeddings》

ConSERT

论文链接:《ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer》

ESimCSE

论文链接:《ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding》

数据集

开源数据集包括:DIAC2019、CCKS2018_Task3、LCQMC、AFQMC、GAIIC2021_Task3、THS2021、CHIP2019、SOHU_2021、COVID19、PAWSX、XF2021、Chinese-MNLI、Chinese-SNLI、Chinese-STS-B、OCNLI、PKU Paraphrase Bank。

数据总结

数据 原始数据/项目地址 原始数据描述
DIAC2019 地址 基于Adversarial Attack的问题等价性判别比赛数据集
CCKS2018_Task3 地址 CCKS 2018 微众银行智能客服问句匹配大赛
LCQMC 地址 哈工大发表的一个中文问答匹配数据集
AFQMC 地址 蚂蚁金融语义相似度数据集
GAIIC2021_Task3 地址 小布助手对话短文本语义匹配比赛数据集
THS2021 地址 同花顺2021人工智能大赛-跨领域迁移的文本语义匹配数据集
CHIP2019 地址 平安医疗科技疾病问答迁移学习比赛数据集
SOHU_2021 地址 2021搜狐校园文本匹配算法大赛数据集
COVID19 地址 “公益AI之星”挑战赛-新冠疫情相似句对判定大赛数据集
PAWSX 地址 多语言释义识别对抗性数据集
XF2021 地址 讯飞赛题—中文问题相似度挑战赛数据集
Chinese-MNLI 地址 中文MNLI数据集
Chinese-SNLI 地址 中文SNLI数据集
Chinese-STS-B 地址 中文SNLI数据集
OCNLI 地址 原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
PKU 地址 句级中文文本复述语料库
CINLID 地址 中文成语语义推理数据集

数据量

总样本数为 匹配样本个数 不匹配样本个数
afqmc 38650 11911
ccks2018_task3 100000 50000
chip2019 20000 10000
COVID-19 10749 4301
diac2019 100298 38446
gaiic2021_task3 177173 54805
lcqmc 260068 149226
pawsx 53401 23576
ths2021 41756 10478
xf2021 5000 2892
sohu_2021 69578 18714
cmnli 404024 134889
csnli 564339 188518
ocnli 53387 17726
cstsb 4473 401
pku 509832 509832

数据下载地址

清洗及格式转换后的数据,下载链接:百度云
提取码:rt6f
【请勿用于商用!!!】

参考

  1. https://arxiv.org/abs/1908.10084
  2. https://arxiv.org/abs/2011.05864
  3. https://github.com/hellonlp/text-similarity/tree/main/bert_whitening
  4. https://arxiv.org/abs/2105.11741
  5. https://arxiv.org/abs/2109.04380

猜你喜欢

转载自blog.csdn.net/zengNLP/article/details/132190973