【408考点之数据结构】串的模式匹配算法

移动开发 2024-11-04 22:41:07 阅读次数: 0

串的模式匹配算法

在计算机科学中，串的模式匹配是一个重要的问题，涉及在一个主串（Text）中寻找一个子串（Pattern）的出现位置。模式匹配算法是解决这一问题的核心，主要目标是提高匹配效率。以下介绍几种常见的模式匹配算法及其实现。

1. 朴素匹配算法（Naive Matching Algorithm）

朴素匹配算法是最基本的字符串匹配算法，依次将模式串与主串的各个子串进行比较，直到找到匹配的子串或遍历完整个主串。其时间复杂度为O((n-m+1)*m)，其中n为主串长度，m为模式串长度。

算法思路：

从主串的第一个字符开始，将模式串与主串的子串进行逐个字符比较。
如果匹配成功，则返回匹配的位置。
如果匹配失败，则将模式串右移一位，继续比较。
重复上述过程，直到找到匹配或遍历完整个主串。

代码实现：

#include <stdio.h>
#include <string.h>

// 朴素匹配算法
int naiveMatch(char* text, char* pattern) {
    
    
    int n = strlen(text);
    int m = strlen(pattern);
    for (int i = 0; i <= n - m; i++) {
    
    
        int j = 0;
        while (j < m && text[i + j] == pattern[j]) {
    
    
            j++;
        }
        if (j == m) {
    
    
            return i; // 匹配成功，返回匹配位置
        }
    }
    return -1; // 匹配失败
}

int main() {
    
    
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = naiveMatch(text, pattern);
    if (pos != -1) {
    
    
        printf("Pattern found at position %d\n", pos);
    } else {
    
    
        printf("Pattern not found\n");
    }
    return 0;
}

2. KMP算法（Knuth-Morris-Pratt Algorithm）

KMP算法通过预处理模式串，构建部分匹配表（Partial Match Table），避免了重复比较，显著提高了匹配效率。其时间复杂度为O(n + m)。

算法思路：

预处理模式串，构建部分匹配表（next数组），记录模式串中各个前缀的最长可匹配后缀长度。
利用部分匹配表，在匹配过程中遇到不匹配字符时，模式串右移位数为当前字符的部分匹配值，避免了重复比较。

代码实现：

#include <stdio.h>
#include <string.h>

// 计算部分匹配表（next数组）
void computeNext(char* pattern, int* next) {
    
    
    int m = strlen(pattern);
    next[0] = 0;
    int j = 0;
    for (int i = 1; i < m; i++) {
    
    
        while (j > 0 && pattern[i] != pattern[j]) {
    
    
            j = next[j - 1];
        }
        if (pattern[i] == pattern[j]) {
    
    
            j++;
        }
        next[i] = j;
    }
}

// KMP匹配算法
int kmpMatch(char* text, char* pattern) {
    
    
    int n = strlen(text);
    int m = strlen(pattern);
    int next[m];
    computeNext(pattern, next);

    int j = 0;
    for (int i = 0; i < n; i++) {
    
    
        while (j > 0 && text[i] != pattern[j]) {
    
    
            j = next[j - 1];
        }
        if (text[i] == pattern[j]) {
    
    
            j++;
        }
        if (j == m) {
    
    
            return i - m + 1; // 匹配成功，返回匹配位置
        }
    }
    return -1; // 匹配失败
}

int main() {
    
    
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = kmpMatch(text, pattern);
    if (pos != -1) {
    
    
        printf("Pattern found at position %d\n", pos);
    } else {
    
    
        printf("Pattern not found\n");
    }
    return 0;
}

3. BM算法（Boyer-Moore Algorithm）

BM算法通过模式串的预处理，在匹配过程中利用坏字符规则（Bad Character Rule）和好后缀规则（Good Suffix Rule）实现大跨度的跳跃，从而提高匹配效率。其时间复杂度为O(n)。

算法思路：

预处理模式串，构建坏字符规则表和好后缀规则表。
从模式串的最后一个字符开始进行匹配，利用规则表决定模式串的移动位数。

代码实现：

#include <stdio.h>
#include <string.h>

#define ALPHABET_SIZE 256

// 计算坏字符表
void computeBadChar(char* pattern, int m, int badChar[ALPHABET_SIZE]) {
    
    
    for (int i = 0; i < ALPHABET_SIZE; i++) {
    
    
        badChar[i] = -1;
    }
    for (int i = 0; i < m; i++) {
    
    
        badChar[(int)pattern[i]] = i;
    }
}

// BM匹配算法
int bmMatch(char* text, char* pattern) {
    
    
    int n = strlen(text);
    int m = strlen(pattern);
    int badChar[ALPHABET_SIZE];
    computeBadChar(pattern, m, badChar);

    int s = 0; // 模式串相对主串的偏移量
    while (s <= n - m) {
    
    
        int j = m - 1;
        while (j >= 0 && pattern[j] == text[s + j]) {
    
    
            j--;
        }
        if (j < 0) {
    
    
            return s; // 匹配成功，返回匹配位置
        } else {
    
    
            s += (j - badChar[(int)text[s + j]] > 1) ? j - badChar[(int)text[s + j]] : 1;
        }
    }
    return -1; // 匹配失败
}

int main() {
    
    
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = bmMatch(text, pattern);
    if (pos != -1) {
    
    
        printf("Pattern found at position %d\n", pos);
    } else {
    
    
        printf("Pattern not found\n");
    }
    return 0;
}

模式匹配算法在字符串处理和文本编辑中具有重要应用。朴素匹配算法简单易懂，但效率较低。KMP算法通过预处理模式串，避免重复比较，大幅提高了效率。BM算法则利用坏字符规则和好后缀规则，实现大跨度跳跃匹配，是效率较高的模式匹配算法。在实际应用中，根据需求选择合适的算法，可以显著提升程序的性能和处理速度。

猜你喜欢

转载自blog.csdn.net/gygkhd/article/details/139918604

【408考点之数据结构】串的模式匹配算法

【408考点之数据结构】串的定义和实现

数据结构之串的模式匹配算法(KMP)

数据结构之串的模式匹配算法(java实现)

数据结构——串的模式匹配算法

【408考点之数据结构】树形查找

【408考点之数据结构】图的遍历

【408考点之数据结构】图的基本概念

【408考点之数据结构】排序的基本概念

【408考点之数据结构】图的应用

【408考点之数据结构】树的基本概念

【白话数据结构 08】字符串 —— 字符串匹配算法（面试高频考点！）

数据结构与算法-串（KMP匹配模式算法）

数据结构——串的模式匹配算法（kmp算法）

数据结构（三）串---BF算法（朴素模式匹配）

数据结构-模式匹配串算法(KMP)

数据结构（三）串---KMP模式匹配算法

数据结构---串的模式匹配算法介绍

数据结构--串的模式匹配算法--C语言

数据结构串BF模式匹配算法作业

数据结构与算法之字符串匹配算法

数据结构之字符串的模式匹配KMP算法

【数据结构与算法】字符串匹配算法之暴力匹配算法、KMP匹配算法

【408考点之数据结构】图的存储和基本操作

【408考点之数据结构】树与二叉树的应用

【408考点之数据结构】二叉树的概念与实现

【408考点之数据结构】顺序查找和折半查找

【408考点之数据结构】特殊矩阵压缩存储的代码实现

《数据结构》KMP 串的模式匹配

数据结构2.2串的模式匹配

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

集成学习——LightGBM原理理解

java复制pdf并且往pdf文件中添加内容

DRF的解析器和渲染器 DRF的解析器和渲染器

pytest以函数形式的测试用例

CSS3 边框

C语言编程经典案例，三种方法求水仙花数（附完整代码）

算法题（313）

css如何让背景透明，文字不透明

linux下网络程序遭遇SIGPIPE的解决（转）

用xposed Hook框架Hook 安卓apk的按钮Id

每日归档

2025-04-13(999)

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)