python—获取字符串格式的序列的中文字符，判别和提取中文字符的方法 - 代码天地

python—获取字符串格式的序列的中文字符，判别和提取中文字符的方法

其他 2018-09-24 13:55:11 阅读次数: 0

版权声明： https://blog.csdn.net/bensonrachel/article/details/80470726

第一步，先把字符串转为Unicode编码：

file=str.decode('utf-8')#把utf-8的编码变成Unicode

第二步，利用正则表达式作为匹配匹配出中文（可以用来在中文文章中去除所有标点）

pattern = re.compile(u'[\u4e00-\u9fa5]+')

这句最重要，注意细节。

filterdata = re.findall(pattern, file)

这样filterdata就变了一个以非中文字符的字符分割的list。

例如：

comments1="#邢晓瑶的红包#好运说来就来！邢晓瑶 的红包中抽到了@微博电影 提供的“5元电影券”，靠谱又惊喜，快来嗨抢吧！邢晓瑶 的红包"

结果：

['邢晓瑶的红包', '好运说来就来', '邢晓瑶', '的红包中抽到了', '微博电影', '提供的', '元电影券', '靠谱又惊喜', '快来嗨抢吧', '邢晓瑶', '的红包']

---分割线---

a=[]
for i in filterdata:
    i=i.replace('动画表情','')
    i = i.replace('照片', '')
    i = i.replace('壁纸', '')
    a.append(i)

print(a)
cleaned_comments = ''.join(a)

如果想要把某些特定的字符串去掉，可以如上

如果想把列表变为字符串还可以如上。

猜你喜欢

转载自blog.csdn.net/bensonrachel/article/details/80470726

python—获取字符串格式的序列的中文字符，判别和提取中文字符的方法

python - 实现中文字符串对齐的方法

获取字符串中的中文字符, 以及字母,或数字

Mysql中文字符串提取datetime

abap 中文字符串提取和字节长度计算 (两种方法)

中文字符串反转

获取中文字符串的拼音

jni中文字符串乱码的处理方法

写了个截取中文字符串的方法

Python版解决中文字符串错误

python 判断中文字符串结尾

PHP中文处理中文字符串截取(mb_substr)和获取中文字符串字数

c语言每日面试之获取字符串中中文字符个数

python 提取中文字符串（utf-8）

判断字符串中的中文字符数量

js 解析的中文字符长度和oracle解析中文字符串长度

php中文字符串提取方法,preg_replace 和preg_match_all区别

好用的获取中文字符串拼音首字母的方法(亲测)

一个简单而精彩的方法获取中文字符串长度

python提取url中的所有中文字符

Python---Unicode中文字符串转换成 string字符串

中文字符串转数组

HBase处理中文字符串

java判断中文字符串长度

Java判断中文字符串是否乱码

中文字符串转拼音

Java 判断中文字符串长度

VisualStudio搜索含中文字符串

PHP截取中文字符串乱码问题

go中文字符串处理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)