ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

用Python实现将txt中的中文和中文标点保留下来

2022-03-08 21:03:46  阅读:265  来源: 互联网

标签:25 Python list 中文标点 str mystr txt 正则表达式


用正则表达式就可以实现这个操作。

中文标点的正则表达式:
[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]
中文的正则表达式:
[\u4e00-\u9fa5]

举例:
1.2.1_25-45分钟.txt = "/getResult success:{'data': '[{"bg":"0","ed":"3880","onebest":"一种就业方式,下面呢,请大家来看两段资料。"

代码:

点击查看代码
import re

f = open("1.2.1_25-45分钟.txt", "r", encoding='utf-8')
print(f)
data = f.readlines()
f.close()
# s = "今天下雨了,。123!@#%@……¥@¥,不开心!。"
# 去除不可见字符

for line in data:
    mystr = re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]', line)     #使用正则表达式筛选每一行的数据,自行查找正则表达式
    str1 = "".join(mystr)
    f1 = open("1.2.1_25-45分钟_.txt", "a+", encoding='utf-8')        #新建一个test1.txt文本,已追加的方式写入
    f1.writelines(str1+'\n')                                      #将每一行打印进test1.txt文件并换行

f1.close()

结果:一种就业方式,下面呢,请大家来看两段资料。

PS:
如果直接把mystr写入文件中,会报以下错误:

TypeError:can only concatenate list (not "str") to list:
类型错误:只能将list类型和list类型联系起来,而不是str类型;

所以要用 "".join(mystr) 来把 str类型加入到list中

标签:25,Python,list,中文标点,str,mystr,txt,正则表达式
来源: https://www.cnblogs.com/joiln/p/15982460.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有