Python去除抓取字段中的特殊字符

一共有四种方法，其中只有第一种需要导入一下 import re，其他不需要导入，想快速简单解决问题，直接看方法三

import re

str =' \n                                \u3000\u30001912年4月10日，号称 “世界工业史上的奇迹”的豪华客轮泰坦尼克号开始了自己的处女航，从英国的南安普顿出发驶往美国纽约。富家少女罗丝（凯特•温丝莱特）与母亲及未婚夫卡尔坐上了头等舱；另一边，放荡不羁的少年画家杰克（莱昂纳多·迪卡普里奥）也在码头的一场赌博中赢得了下等舱的船票。\n                                    \n                                \u3000\u3000罗丝厌倦了上流社会虚伪的生活，不愿嫁给卡尔，打算投海自尽，被杰克救起。很快，美丽活泼的罗丝与英俊开朗的杰克相爱，杰克带罗丝参加下等舱的舞会、为她画像，二人的感情逐渐升温。\n                                    \n                                \u3000\u30001912年4月14日，星期天晚上，一个风平浪静的夜晚。泰坦尼克号撞上了冰山，“永不沉没的”泰坦尼克号面临沉船的命运，罗丝和杰克刚萌芽的爱情也将经历生死的考验。\n                        '
##方法一：注意导入 import re 
#采用的是sub替换
resultStr = re.sub(r' ','',re.sub(r'\u3000','',re.sub(r'\n','',str)))
print(resultStr)

##方法二：
#采用的是replace替换
resultStr = str.replace(' ','').replace('\n','').replace('\u3000','')
print(resultStr)

##方法三：
# 采用的是split()直接去除特殊字符
resultStr = "".join(str.split())
print(resultStr)

##方法四：
# 采用的是translate去除特殊字符，move里面 '\n\u3000 '是需要切掉的字符
move = dict.fromkeys((ord(c) for c in u'\n\u3000 '))
resultStr = str.translate(move)
print(resultStr)

各位按需索取吧，运行结果：

1912年4月10日，号称“世界工业史上的奇迹”的豪华客轮泰坦尼克号开始了自己的处女航，从英国的南安普顿出发驶往美国纽约。富家少女罗丝（凯特•温丝莱特）与母亲及未婚夫卡尔坐上了头等舱；另一边，放荡不羁的少年画家杰克（莱昂纳多·迪卡普里奥）也在码头的一场赌博中赢得了下等舱的船票。罗丝厌倦了上流社会虚伪的生活，不愿嫁给卡尔，打算投海自尽，被杰克救起。很快，美丽活泼的罗丝与英俊开朗的杰克相爱，杰克带罗丝参加下等舱的舞会、为她画像，二人的感情逐渐升温。1912年4月14日，星期天晚上，一个风平浪静的夜晚。泰坦尼克号撞上了冰山，“永不沉没的”泰坦尼克号面临沉船的命运，罗丝和杰克刚萌芽的爱情也将经历生死的考验。

转载请标注来源：https://blog.csdn.net/you943047219/article/details/84956929

Python去除抓取字段中的特殊字符

猜你喜欢