《Speech and Language Processing》Chapter 2 Words 单词

C2. Words

在讨论单词处理之前,应该考虑是什么定义了一个单词。首先来看一个概念语料库(corpus,复数corpora),它是计算机可读的单词的集合。

标点 Punctuation

实际中,是否把**标点(Punctuation)**视为单词要看具体的任务要求。

不流利 disfluency

实际的言语表达中还会面临很多不流利的情况:

                            I do uh main- mainly business data processing

一种如:main-这样的语言片段(fragment);一种如uh或um这样的称之为填充词(fillers or filled pauses)。是否将他们考虑为一个单词,也应该根据具体的任务要求。在speech transcription system任务中,通常会省略这些不流利的情况;而在speech recognition任务中,通常会将um uh这样的词视为正常的单词,因为这些填充词通常代表了讲话者重新组织表达一个想法,这些填充词也可以视为讲话者的身份识别。

大小写单词形式

还有诸如大小写、**单词形式(单复数、时态)**的影响需要考虑。

单词的两种形式:Type与Token

type:语料库中不重复的单词数,用 V V V代表词汇表的单词集合, ∣ V ∣ |V| V 代表集合中单词的数量。通常将语言的word数量,指的对象是type,等于 ∣ V ∣ |V| V

token:总的单词数(考虑重复),用 N N N表示。

      They picnicked by the pool, then lay back on the grass and looked at the stars.

以上这句话中,有14个types,16个tokens(“the”重复2次)

Herdan’s Law or Heaps’ Law

∣ V ∣ = k N β |V| = kN^β V=kNβ
式中, β \beta β 的大小取决于语料库,通常取值 .65 到 .75范围。

猜你喜欢

转载自blog.csdn.net/weixin_45850137/article/details/107143150