C2. Corpora
单词并不是凭空产生的,它处在某种特定的方言体系、语言、时间、地点为了某种特定的目的,受到他们共同的影响。
语言 language
影响单词变化的最大的因素是语言(language)。
据统计全世界有7097种语言,而绝大多数的NLP工具关注于使用人口较多的几种语言,如汉语、英语、西班牙语、阿拉伯语等。更进一步,一种语言也有不同变种,如不同地域的方言。另一种常见的现象是,表达者(speaker或writer)会在交流过程中使用多种语言,这一现象称为code switching。
类型/体裁 genra
就书面类型而言,文本可能来自于新闻、小说、科学书籍等等;口头表达类型而言,文本来自于电话交流、商务会议、医学采访等等。还有其他来自于不同的专业的文本。
人口统计学特征 demographic characteristics
文本同样能反映如年龄、性别、种族、社会经济等级等特征,他们也能影响表达者的语言结构。
时间 time
不同的历史时期语料库也会有所变化。