NLP--THUCTC: 一个高效的中文文本分类工具包 - 代码天地

NLP--THUCTC: 一个高效的中文文本分类工具包

其他 2018-08-05 17:02:25 阅读次数: 0

项目介绍

THUCTC(THU Chinese Text
Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维，是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验，在THUCTC中选取二字串bigram作为特征单元，特征降维方法为Chi-square，权重计算方法为tfidf，分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性，不依赖于任何中文分词工具的性能，具有准确率高、测试速度快的优点。

作者

Maosong Sun（孙茂松，导师），Jingyang Li（李景阳，博士生），Zhipeng Guo（郭志芃，本科生），Yu Zhao（赵宇，博士生），Yabin Zheng（郑亚斌，博士生），Xiance Si（司宪策，博士生），Zhiyuan Liu（刘知远，助理教授）.

项目地址

http://thuctc.thunlp.org/

猜你喜欢

转载自blog.csdn.net/ld326/article/details/81328025

NLP--THUCTC: 一个高效的中文文本分类工具包

使用Thuctc进行中文文本分类应用

NLP---THULAC：一个高效的中文词法分析工具包

【python 走进NLP】pkuseg一个领域细分的中文分词工具包

文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn

NLP系列（一）pkuseg-python：一个高准确度的中文分词工具包

NLP系列——用Python实现一个简单的文本分类器

中文NLP工具包中文NLP工具

NLP文本分类

NLP 中的文本分类

NLP之文本分类

文本分类概述（nlp）

NLP文本分类问题

文本分类实战-NLP

CNN也能用于NLP任务，一文简述文本分类任务的7个模型

FoolNLTK—简单好用的中文NLP工具包

NLP实战：Pytorch实现7大经典深度学习中文文本分类-TextCNN+TextRNN+FastText+TextRCNN+TextRNN_Attention+DPCNN+Transformer

中文文本分类

nlp(一)用tgrocery实现文本分类

THULAC：一个高效的中文词法分析工具包

一个小型的中文文本分类系统(项目链接文末)——《ML算法原理和实践》学习笔记

简洁高效的 NLP 入门指南: 200 行实现 Bert 文本分类 (TensorFlow 版)

简洁高效的 NLP 入门指南: 200 行实现 Bert 文本分类 (Pytorch 版)

【NLP_Stanford课堂】文本分类

【NLP】文本分类主题预测综述

nlp之文本分类（更新中...）

CNN在NLP领域的实践文本分类

NLP总结：文本分类（持续更新）

学习腾讯的NLP文本分类

[NLP]文本分类之fastText详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)