自然语言处理界的小螺丝钉

Title

刘焕勇, liuhuanyong,语言学及应用语言学硕士,2017年毕业于北京语言大学,目前就职于中国科学院软件研究所,主要从事信息抽取,知识图谱,情感分析, 社会计算等自然语言处理研发工作,兴趣包括:

  • 语言资源构建
  • 信息抽取与知识图谱
  • 舆情监测与社会计算

联系邮箱:[email protected]

github主页:https://github.com/liuhuanyong

github项目主页:https://liuhuanyong.github.io/

目前尝试的相关类别项目如下:

一、参会总结

项目名称 中文名称 项目技术点
CCKS2018Summary CCKS2018会议总结 知识图谱,个人心得
CCL2018Summary CCL2018参会总结 自然语言处理,心得

二、语言资源构建

项目名称 中文名称 项目技术点
SentimentWordExpansion 情感词扩展 SOPMI
BaikeInfoExtraction 百科信息抽取 Urllib,xpath
SougouWordCollector 搜狗词库自动构建 Urllib,Scrapy
LanguageResources 语言资源 语言资源库,语义库,常用词典
BaikeKnowledgeSchema 百科知识体系构建 Urllib,xpath,递归,知识库本体概念

三、自然语言处理基本组件

项目名称 中文名称 项目技术点
WordSegment 分词 HMM, MAXCUT,Ngram
HuanNLP 自然语言处理组件 HMM, maxent, CRF
Pinyin2Chinese 拼音转文字 Trie树,HMM, bigram
QueryCorrection 查询纠错 edit-distance
ChineseCixing 中文词形查询 字形,音形
ChineseAntiword 中文反义词查询 反义词

四、信息抽取

项目名称 中文名称 项目技术点
WordMultiSenseDisambiguation 中文多义词词义消歧 百科知识库,词义语义表示,词义语义相似度计算
TextFeatureExtraction 文本特征提取 IG,CHI ,DF,MI
WordCollocation 搭配抽取 MI
KeyInfoExtraction 关键信息提取 TFIDF,TextRank
EventTriplesExtraction 事件三元组提取 dependency parser
知识图谱与事理图谱
项目名称 中文名称 项目技术点
CrimeKgAssitant 法律罪行智能助手 知识图谱, 智能预判, 自动问答
QASystemOnMedicalKG 医疗知识图谱与自动问答 知识图谱构建及自动问答
ComplexEventExtraction 复合事件图谱 复合事件,条件事件、反转事件抽取
CausalityEventExtraction 因果事件图谱 因果图谱,因果事件抽取
SequentialEventExtration 顺承事件图谱 动宾短语提取,事件图谱
LanguageKnowledgeGraph 语言政策知识图谱 Neo4j,Echarts,D3js
HyponymyExtraction 上下位关系图谱 模式匹配,上下位概念表示
MusicLyricChatbot 歌词对对碰 es搜索,歌词知识库

五、文本挖掘与社会计算

项目名称 中文名称 项目技术点
DocSentimentAnalysis 基于句法依存的情感分析 Template, Dependencyparser
LearningBasedSentiment 基于深度学习的情感分析 CNN,RNN,ML
TextGrapher 文本结构化图谱表示 EventExtraction,知识表示
ImportantEventExtractor 文本重要性计算 textrank
ZhuguanDetection 文本主观性计算 subjective knowledge base
SentenceSimilarity 句子相似度计算 distance, hash, haiming ,eidtdistance
TopicCluster 文本话题聚类 LDA,Kmeans
EventMonitor 特定事件追踪 新闻采集,事件监测架构,scrapy
PoemMining 中国古代诗词挖掘 语料库构建,文本挖掘
LawCrimeMining 司法文本挖掘 语料库构建,文本挖掘
HumorMining 幽默计算 语料库构建,文本挖掘
LanguagePlatform 集成自然语言处理技术的语言平台 Neo4j,Echarts,Django

六、深度学习与语义表示

项目名称 中文名称 项目技术点
DeepLearningInaction 深度学习练习 Keras, Tensorflow
Seq2SeqTranslation 端到端的翻译模型 keras, lstm
Word2Vector 词向量表示 CBOW, SKIP-GRAM,Co-Matrix
Sentence2Vector 句子向量表示 CBOW
BiLSTM-NER 基于BI-LSTM的命名实体识别 keras, bi-lstm

七、舆情信息采集

项目名称 中文名称 项目技术点
WeiboIndexSpyder 微博指数采集 selenium,xpath
BaiduIndexSpyder 百度指数采集 xpath,selenium
AliIndexSpyder 阿里指数采集 selenium,xpath

懂语言者,得天下。要做好理解人类语言这件事,需要语言学家和计算机科学家一起努力,作为一个语言学背景而又敲代码的小菜来说,希望能够从点滴做起,从语言资源出发,构建器尽可能全和优质的语言资源,包括基础词库、知识库、知识图谱,并结合当下的一些业务,解决一些实际问题,这条路,将一直走下去。

若有交流,可联系:
刘焕勇,中国科学院软件研究所,北京市海淀区中关村南四街四号。
邮箱:[email protected]
github主页:https://github.com/liuhuanyong
github项目主页:https://liuhuanyong.github.io/

猜你喜欢

转载自blog.csdn.net/lhy2014/article/details/82954509
今日推荐