《Speech and Language Processing》Chapter 2 Corpora 语料库

C2. Corpora

单词并不是凭空产生的,它处在某种特定的方言体系、语言、时间、地点为了某种特定的目的,受到他们共同的影响。

语言 language

影响单词变化的最大的因素是语言(language)。

据统计全世界有7097种语言,而绝大多数的NLP工具关注于使用人口较多的几种语言,如汉语、英语、西班牙语、阿拉伯语等。更进一步,一种语言也有不同变种,如不同地域的方言。另一种常见的现象是,表达者(speaker或writer)会在交流过程中使用多种语言,这一现象称为code switching

类型/体裁 genra

就书面类型而言,文本可能来自于新闻、小说、科学书籍等等;口头表达类型而言,文本来自于电话交流、商务会议、医学采访等等。还有其他来自于不同的专业的文本。

人口统计学特征 demographic characteristics

文本同样能反映如年龄、性别、种族、社会经济等级等特征,他们也能影响表达者的语言结构。

时间 time

不同的历史时期语料库也会有所变化。

猜你喜欢

转载自blog.csdn.net/weixin_45850137/article/details/107143101
今日推荐