NLP必不可少的中文数据资源

最近在做中文文本分类,你做数据,首先你就得有数据集嘛,没有数据集你就得自己爬,很麻烦,我自己已经走了很多弯路了,只想提供给大家一些实用的东西,目的就酱。

搜狗实验室数据资源

首先挂一个链接,因为其他博文的链接都是八百辈子之前的都挂掉了,想要下载的点击这个搜狗实验室,强烈建议不要使用Chrome,不知道为啥就是无法跳转到下载界面,我使用的Safari,然后登记下个人信息酒就可以使用了,毕竟你还是要尊重下人家的版权的嘛。
假设我们要使用搜狐新闻数据:

这里写图片描述

完整版非常大,是一个.dat格式的文件,还要自己进行切分,事实上搜狗实验室提供的资源不仅是ASCII码格式的,你需要自己转换,甚至文档都是xml结构的,你还需要自己提取,mmp,折腾我好久,当然我是个有毅力的人,最后当然是选择放弃了,哈哈哈哈哈~

这里写图片描述

虽然我失败了,但是给你们提供一个案例,祝你们能实现:
文本分类中语料库的获取——对搜狗语料库进行想要格式的获取
将搜狗实验室新闻语料库导入navicat

中文文本分类数据集THUCNews

点击这里去往官网
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

这里写图片描述

同样,你登录好自己的信息就可以下载了,但是你值得注意的是:这个数据集非常大,压缩包1.5G,实际文件大概在2.2G左右,解压缩就浪费了两个小时,毫不夸张的说,我都不敢在我的mac上尝试,还是借的同学的win,一般的话一个类别大概用个2000条就已经非常多了,自己可以动手在整理一下。

总结

清华的是按照类别存放的,就是太大了,切割一下拿来就可以用,搜狗这个很不良心啊,不推荐不推荐。

致谢
感谢清华大学的孙茂松,李景阳,郭志芃,赵宇,郑亚斌,司宪策,刘知远
感谢搜狗实验室团队

猜你喜欢

转载自blog.csdn.net/alicelmx/article/details/79083903