正则表达式举例

#encoding=utf-8

import re
# html里是文本里的内容
f = open('text.txt','r')
html = f.read()
f.close

# #爬取标题
# # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高
# title = re.search('<title>(.*?)</title>',html,re.S).group(1)
# print title

# #爬取链接
# Links = re.findall('href="(.*?)"',html,re.S)
# print Links
# for each in Links:
#     print each

# #提取部分文字信息:先爬大,再爬小
# text_fied = re.findall('<ul>(.*?)</ul>',html,re.S)[0]
# #猜想,当findall得到的元素是一个元组,但是这个元组仅有一个时,需要像search那样给定位置。
# print text_fied
# the_text = re.findall('">(.*?)</a>',text_fied,re.S)
# for e_text in the_text:
#     print e_text

#sub实现翻页功能
old_url = "http://www.jikexueyuan.com/course/android/?pageNum=2"
total_page = 20

for i in range(2,total_page+1):
    new_link = re.sub('pageNum=\d+','pageNum=%d'%i,old_url,re.S)
    print new_link

猜你喜欢

转载自blog.csdn.net/hhyiyuanyu/article/details/80066258