正则表达式:在一个文本中匹配子字符串的一种模式,它可以简写为regexp。
一个regexp可以主要应用在以下几个方面:
1.验证。regexp可以测试一个子字符串是否符合一些规范。例如,是否是一个整数或者不包含任何空格等。
2.搜索。regexp提供了比简单的子字符串匹配更强大的模式匹配。例如,匹配单词mail或者letter,而不匹配单词email、mailman或者letterbox。
3.查找和替换。regexp可以使用一个不同的字符串替换所有匹配的子字符串。例如,使用Mail来替换一个字符串中所有的M字符,但是M字符后面有ail时则不进行替换。
4.字符串分割。regexp可以识别在哪里使用正则表达式进行模式匹配。例如,分割制表符隔离的字符串。
Regexps由表达式、量词和断言组成。
表达式:一个字符,例如x和5;一组字符,例如[abc](可以简写为a-c)。
量词:指定了必须要匹配的表达式出现的次数。例如x{1,1}意味着必须匹配且只能匹配一个字符x。
可以使用一些特殊的符号来表示一些常见的字符组和量词。例如,[0-9]可以用"\d"来替代。要匹配0~99,就可以写为"^\d{1,2}$"或者"^\d\d{0,1}$"。而{0,1}表示字符是可选的,就是只出现一次或者不出现,它可以使用"?"来代替,这样regexp就可以写为"^\d\d? $",它意味着从字符串的开始,匹配一个数字,紧接着是0个或一个数字,再后面就是字符串的结尾。
如果想使用一个单词,如Mail,替换一个字符串中的字符M,但是当字符M的后面是ail的话就不再替换。这样可以使用(?!E)断言,例如这里regexp应该写成M(?!Mail)。
下面在实际程序中对这些例子进行演示。
#include "widget.h"
#include "ui_widget.h"
#include <QDebug>
Widget::Widget(QWidget *parent) :
QWidget(parent),
ui(new Ui::Widget)
{
ui->setupUi(this);
QRegExp rx("^\\d\\d?$"); // 两个字符都必须为数字,第二个字符可以没有
qDebug() << rx.indexIn("a1"); // 结果为-1,不是数字开头
qDebug() << rx.indexIn("5"); // 结果为0
qDebug() << rx.indexIn("5b"); // 结果为-1,第二个字符不是数字
qDebug() << rx.indexIn("12"); // 结果为0
qDebug() << rx.indexIn("123"); // 结果为-1,超过了两个字符
qDebug() << "*******************"; // 输出分割符,为了显示清晰
rx.setPattern("\\b(mail|letter)\\b"); // 匹配mail或者letter单词
qDebug() << rx.indexIn("emailletter"); // 结果为-1,mail不是一个单词
qDebug() << rx.indexIn("my mail"); // 返回3
qDebug() << rx.indexIn("my email letter"); // 返回9
qDebug() << "*******************";
rx.setPattern("M(?!ail)"); // 匹配字符M,其后面不能跟有ail字符
QString str1 = "this is M";
str1.replace(rx, "Mail"); // 使用"Mail"替换匹配到的字符
qDebug() << "str1: " << str1; // 结果为this is Mail
QString str2 = "my M,your Ms,his Mail";
str2.replace(rx,"Mail");
qDebug() << "str2: " << str2; // 结果为my Mail,your Mails,his Mail
qDebug() << "*******************";
QString str3 = "One Eric another Eirik, and an Ericsson. "
"How many Eiriks, Eric?"; // 一个字符串如果一行写不完,换行后两行都需要加双引号
QRegExp rx2("\\bEi?ri[ck]\\b"); // 匹配Eric或者Eirik
int pos = 0;
int count = 0;
while (pos >= 0) {
pos = rx2.indexIn(str3, pos);
if (pos >= 0) {
++pos; // 从匹配的字符的下一个字符开始匹配
++count; // 匹配到的数目加1
}
}
qDebug() << "count: " << count; // 结果为3
QRegExp rx3("*.txt");
rx3.setPatternSyntax(QRegExp::Wildcard);
qDebug() << rx3.exactMatch("README.txt"); // 结果为true
qDebug() << rx3.exactMatch("welcome.txt.bak"); // 结果为false
QRegExp rx4("(\\d+)");
QString str4 = "Offsets: 12 14 99 231 7";
QStringList list;
int pos2 = 0;
while ((pos2 = rx4.indexIn(str4, pos2)) != -1) {
list << rx4.cap(1); // 第一个捕获到的文本
pos2 += rx4.matchedLength(); // 上一个匹配的字符串的长度
}
qDebug() << list; // 结果12,14,99,231,7
QRegExp rxlen("(\\d+)(?:\\s*)(cm|inch)");
int pos3 = rxlen.indexIn("Length: 189cm");
if (pos3 > -1) {
QString value = rxlen.cap(1); // 结果为189
QString unit = rxlen.cap(2); // 结果为cm
QString string = rxlen.cap(0); // 结果为189cm
qDebug() << value << unit << string;
}
QRegExp rx5("\\b(\\w+)\\W+\\1\\b");
rx5.setCaseSensitivity(Qt::CaseInsensitive); // 设置不区分大小写
qDebug() << rx5.indexIn("Hello--hello"); // 结果为0
qDebug() << rx5.cap(1); // 结果为Hello
QRegExp rx6("\\b你好\\b"); // 匹配中文
qDebug() << rx6.indexIn("你好"); // 结果为0
qDebug() << rx6.cap(0); // 整个字符串完全匹配,使用cap(0)捕获,结果为“你好”
}
Widget::~Widget()
{
delete ui;
}
这里使用了QRegexp的indexIn()函数,它从指定的位置开始向后对字符串进行匹配,默认是从字符串开始进行匹配。如果匹配成功,则返回第一个匹配到的位置的索引;如果没有匹配到,则返回-1.setPattern()函数用来输入一个regexp。而QString的replace()函数可以使用给定的regexp和替换字符来进行字符串的替换。
出处:《Qt Creator快速入门》