Z-function/Z Algorithm的构造与应用

Z-function

  定义一个函数 z ( ) z ( i ) 是指由 s [ i ] 开始的字串,与 s [ 0 ] 开始的字串可以匹配到多长。也就是说 s [ 0 . . . z ( i ) 1 ] = s [ i . . . i + z ( i ) 1 ]


了解 Z-function


–| 0 1 2 3 4 5 6 7
–+—————————
s | a b a a b a a b
z | 8 0 1 5 0 1 2 0

z ( 0 ) abaabaab,长度8。
z ( 1 ) Ø ,长度0。
z ( 2 ) a,长度1。
z ( 3 ) abaab,长度5。

  设计此函数的缘由,是因为进行字串匹配的时候,我们总是希望两字串的开头尽可能长得一样。至于为什么取名为z,就得问 paladin8 了。后面将提到如何运用Z function作字串匹配,现在先讲解如何构造Z function。


如何计算Z()

  计算 z ( ) ,是从左往右算。 z ( 0 ) 是特例, z ( 0 ) 是整个字串的长度,所以 z ( 0 ) 不用算,由 z ( 1 ) 开始算。
  计算 z ( i ) ,是运用已经算好的 z ( j ) j < i 。也就是指已经算好的某一段 s [ 0 . . . z ( j ) 1 ] = s [ j . . . j + z ( j ) 1 ] 。首先找出哪一段 s [ j . . . j + z ( j ) 1 ] 覆盖了 s [ i ] ,而且 j + z ( j ) 1 越右边越好
  
  这里写图片描述
  

一、

如果没有任何一段s[j … j+z(j)-1]覆盖了s[i],表示已经算好的部份都派不上用场。从s[i]与s[0]开始比对,逐字比下去。

这里写图片描述

二、

如果有一段s[j … j+z(j)-1]覆盖了s[i],表示s[i]也会出现在s[0 … z(j)-1]之中,把i映射到对应的位置i’。紧接着再来一次,运用z(i’),也就是指s[0 …. z(i’)-1] = s[i’ … i’+z(i’)-1],如此又把i’映射到字串开头了。

这里写图片描述

二之一、

如果s[i … i+z(i’)-1]短少于s[j … j+z(j)-1]的右端,那就可以直接算出z(i)的答案,就是z(i’)。

这里写图片描述

二之二、

如果s[i … i+z(i’)-1]刚好贴齐s[j … j+z(j)-1]的右端,那就必须检查不确定的部分,直接从s[j+z(j)]与s[j+z(j)-i]继续比对,逐字比下去。

这里写图片描述

二之三、

如果s[i … i+z(i’)-1]凸出了s[j … j+z(j)-1]的右端,则与上一种情形相同。

这里写图片描述
这里写图片描述


时间复杂度

  以字元两两比较的总次数,作为时间复杂度。
  
  j+z(j)-1这个数值会从0开始不断增加。每当字元比对成功时,j+z(j)-1就会跟着增加,下次比对的时候就会从j+z(j)继续比对。j+z(j)-1这个数值的增加次数与比对次数一样多,最多会从0增加到S,所以时间复杂度是O(S)。
  
  j便是原着中的L,j+z(j)-1便是原着中的R。


字串匹配

  制做P + $ + T,也就是说,P接到T开头,中间用一个从未出现过的字元隔开。然后算z function,看看哪些z(i)刚好是P的长度,即是匹配。
  
  实作时,不必真的衔接T与P。先计算P的z function,再以此计算T的z function就可以了。时间复杂度为O(T+P)。

这里写图片描述
  
  Gusfield’s Algorithm点明了字串匹配的精髓:两个字串的「共同前缀」。Morris-Pratt Algorithm则是Gusfield’s Algorithm的另外一面,两者关系互补。

Gusfield’s Algorithm :一个字串的每个后缀之中,与字串开头相同的最长前缀。
Morris-Pratt Algorithm:一个字串的每个前缀之中,与字串开头相同的次长后缀。

HDU4333 UVa 11022 ICPC 4759 CF 127D CF 113B CF 535D CF 432D CF 427D

原文出处:http://codeforces.com/blog/entry/3107

发布了104 篇原创文章 · 获赞 127 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/qq_33330876/article/details/72844491
z