Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载
Penn Treebank数据集介绍
Penn Treebank是NLP中常用的PTB语料库,Penn Treebank是一个项目的名称,该项目对语料进行标注,标注内容包括:【词性标注】和【句法分析】。
- 语料来源:1989年的华尔街日报
- 语料规模:1M words,共2499片文章
- 语料价格:1500~1700$
应用于NLTK工具下:
- tokenizing(分词)
- tagging(词性标注)
- chunking(分块)
- parsing(句法分析)
"""
treebank示例目录中包含的文件,分别为raw,tagged, parsed,combined。四个示例类型如下所示:
"""