正则去掉序号
在编辑器里面使用搜索功能,输入正则表达式,就能选中所有的目标了。
代码如下
^[0-9]*
^ 表示匹配开头的字符
* 表示匹配0个或多个的表达式,当只输入^ [0-9] 时,只匹配到第一列的所有数字
参考文章正则表达式
从网上或者哪里拷贝下来的代码前面总有编号,如何去掉呢
案例示范
1.从网上复制的代码,前面带有数字
1import json
2import requests
3from bs4 import BeautifulSoup
4import pandas as pd
5import re
6import os
7os.chdir('D:/爬虫/女神')
8
9id_list = []
10title_list = []
11pic_list = []
12date_list=[]
13
14for i in range(1,6):
15 url= 'http://api.dongqiudi.com/search?keywords=%E5%A5%B3%E7%A5%9E%E5%A4%A7%E4%BC%9A&type=all&page='+str(i)
16 html = requests.get(url=url).content
17 news = json.loads(html.decode('utf-8'))['news']
18 this_id = [k['id'] for k in news]
19 this_pic = [k['thumb'] for k in news]
20 this_title = [k['title'] for k in news]
21 this_date = [k['pubdate'] for k in news]
22 this_title=[BeautifulSoup(k,"html.parser").text for k in this_title]
23 id_list = id_list+this_id
24 title_list = title_list+this_title
25 pic_list = pic_list+this_pic
26 date_list = date_list+this_date
2.使用正则,如下图
出现一个新问题,个位数与十位数的数字没对齐,导致个位数都没选中,这时需要我们将所有字符顶格
操作方法:全选,shift+tab
3.完成
import json
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import os
os.chdir('D:/爬虫/女神')
id_list = []
title_list = []
pic_list = []
date_list=[]
for i in range(1,6):
url= 'http://api.dongqiudi.com/search?keywords=%E5%A5%B3%E7%A5%9E%E5%A4%A7%E4%BC%9A&type=all&page='+str(i)
html = requests.get(url=url).content
news = json.loads(html.decode('utf-8'))['news']
this_id = [k['id'] for k in news]
this_pic = [k['thumb'] for k in news]
this_title = [k['title'] for k in news]
this_date = [k['pubdate'] for k in news]
this_title=[BeautifulSoup(k,"html.parser").text for k in this_title]
id_list = id_list+this_id
title_list = title_list+this_title
pic_list = pic_list+this_pic
date_list = date_list+this_date
发现的新大陆
输入^[0-9]时,会匹配所有 一位数以上行 的第一个字符
输入^[0-9].时,会匹配所有 两位数以上行 的前两个字符
3.
输入^[0-9]..时,会匹配所有 三位数以上行 的前三个字符