统计单词数【KMP做法~可以用作KMP的理解题】

题面:

  一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数。 
现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在给定的文章中出现的次数和第一次出现的位置。注意:匹配单词时,不区分大小写,但要求完全匹配,即给定单词必须与文章中的某一独立单词在不区分大小写的情况下完全相同 (参见样例 1) ,如果给定单词仅是文章中某一单词的一部分则不算匹配(参见样例 2) 。

Input

第 1 行为一个字符串,其中只含字母,表示给定单词; 
第 2 行为一个字符串,其中只可能包含字母和空格,表示给定的文章。

Output

只有一行, 如果在文章中找到给定单词则输出两个整数, 两个整数之间用一个空格隔开,分别是单词在文章中出现的次数和第一次出现的位置(即在文章中第一次出现时,单词首字母在文章中的位置,位置从 0 开始) ;如果单词在文章中没有出现,则直接输出一个整数-1。

Sample Input

样例 #1:
To 
to be or not to be is a question 

样例 #2:
to 
Did the Ottoman Empire lose its power at that time

Sample Output

样例 #1:
2 0

样例 #2:
-1

Hint

【输入输出样例 1 说明】 
输出结果表示给定的单词 To 在文章中出现两次,第一次出现的位置为 0。 

【输入输出样例 2 说明】 
表示给定的单词 to 在文章中没有出现,输出整数-1。 

【数据范围】 
1 ≤单词长度≤10。 
1 ≤文章长度≤1,000,000。


  题意:

  中文题还讲的这么模糊也是醉了(我读题好弱啊。。):

(1)、求的是单词相等,而不是字符串中的一部分相等,是完全一模一样;

(2)、起点都是从0开始的。


  我这里用KMP来做这道题,我们先对待查的字符串先处理next[]数组,然后查询待查询的字符串,遇到刚好满足KMP的字符串我们要看他是否左右是空格或者是边界,如果是字符,就说明它还不是一个完整的单词。


#include <iostream>
#include <cstdio>
#include <cmath>
#include <string>
#include <cstring>
#include <algorithm>
#include <limits>
#include <vector>
#include <stack>
#include <queue>
#include <set>
#include <map>
#define lowbit(x) ( x&(-x) )
#define pi 3.141592653589793
#define e 2.718281828459045
using namespace std;
typedef unsigned long long ull;
typedef long long ll;
const int maxN=1e6+5;
string a, b;
int nex[maxN], lena, lenb, cnt;
bool within(int x)
{
    if( (b[x+1]<='z' && b[x+1]>='a') && x+1<lenb) return false;
    if( (b[x-lena]<='z' && b[x-lena]>='a')  && x-lena>=0) return false;
    return true;
}
void cal_next()
{
    int k=-1;
    nex[0]=-1;
    for(int i=1; i<lena; i++)
    {
        while(k>-1 && a[k+1]!=a[i]) k=nex[k];
        if(a[k+1] == a[i]) k++;
        nex[i]=k;
    }
}
int KMP()
{
    int pos=-1;
    int k=-1;
    cal_next();
    for(int i=0; i<lenb; i++)
    {
        while(k>-1 && a[k+1]!=b[i]) k=nex[k];
        if(a[k+1] == b[i]) k++;
        if(k==lena-1)
        {
            if(!within(i)) { k=nex[k]; continue; }
            k=-1;
            if(pos==-1) pos=i-lena+1;
            cnt++;
        }
    }
    return pos;
}
int main()
{
    a.clear();  b.clear();
    while(getline(cin, a))
    {
        getline(cin, b);
        cnt=0;
        lena=(int)a.size();
        lenb=(int)b.size();
        for(int i=0; i<lena; i++) { if(a[i]<='Z' && a[i]>='A') a[i]+=32; }
        for(int i=0; i<lenb; i++) { if(b[i]<='Z' && b[i]>='A') b[i]+=32; }
        int ans=KMP();
        if(cnt) printf("%d ", cnt);
        printf("%d\n", ans);
        a.clear();  b.clear();
    }
    return 0;
}

猜你喜欢

转载自blog.csdn.net/qq_41730082/article/details/83548073
kmp