Python去除抓取字段中的特殊字符

一共有四种方法,其中只有第一种需要导入一下 import re,其他不需要导入,想快速简单解决问题,直接看方法三

import re

str =' \n                                \u3000\u30001912年4月10日,号称 “世界工业史上的奇迹”的豪华客轮泰坦尼克号开始了自己的处女航,从英国的南安普顿出发驶往美国纽约。富家少女罗丝(凯特•温丝莱特)与母亲及未婚夫卡尔坐上了头等舱;另一边,放荡不羁的少年画家杰克(莱昂纳多·迪卡普里奥)也在码头的一场赌博中赢得了下等舱的船票。\n                                    \n                                \u3000\u3000罗丝厌倦了上流社会虚伪的生活,不愿嫁给卡尔,打算投海自尽,被杰克救起。很快,美丽活泼的罗丝与英俊开朗的杰克相爱,杰克带罗丝参加下等舱的舞会、为她画像,二人的感情逐渐升温。\n                                    \n                                \u3000\u30001912年4月14日,星期天晚上,一个风平浪静的夜晚。泰坦尼克号撞上了冰山,“永不沉没的”泰坦尼克号面临沉船的命运,罗丝和杰克刚萌芽的爱情也将经历生死的考验。\n                        '
##方法一:注意导入 import re 
#采用的是sub替换
resultStr = re.sub(r' ','',re.sub(r'\u3000','',re.sub(r'\n','',str)))
print(resultStr)

##方法二:
#采用的是replace替换
resultStr = str.replace(' ','').replace('\n','').replace('\u3000','')
print(resultStr)

##方法三:
# 采用的是split()直接去除特殊字符
resultStr = "".join(str.split())
print(resultStr)

##方法四:
# 采用的是translate去除特殊字符,move里面 '\n\u3000 '是需要切掉的字符
move = dict.fromkeys((ord(c) for c in u'\n\u3000 '))
resultStr = str.translate(move)
print(resultStr)

各位按需索取吧,运行结果:

1912年4月10日,号称“世界工业史上的奇迹”的豪华客轮泰坦尼克号开始了自己的处女航,从英国的南安普顿出发驶往美国纽约。富家少女罗丝(凯特•温丝莱特)与母亲及未婚夫卡尔坐上了头等舱;另一边,放荡不羁的少年画家杰克(莱昂纳多·迪卡普里奥)也在码头的一场赌博中赢得了下等舱的船票。罗丝厌倦了上流社会虚伪的生活,不愿嫁给卡尔,打算投海自尽,被杰克救起。很快,美丽活泼的罗丝与英俊开朗的杰克相爱,杰克带罗丝参加下等舱的舞会、为她画像,二人的感情逐渐升温。1912年4月14日,星期天晚上,一个风平浪静的夜晚。泰坦尼克号撞上了冰山,“永不沉没的”泰坦尼克号面临沉船的命运,罗丝和杰克刚萌芽的爱情也将经历生死的考验。
 

转载请标注来源:https://blog.csdn.net/you943047219/article/details/84956929

猜你喜欢

转载自blog.csdn.net/you943047219/article/details/84956929