ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python去除字符串中的特殊字符(爬虫存储数据时会遇到不能作为文件名的字符串)

2020-01-30 12:53:34  阅读:404  来源: 互联网

标签:字符 文件名 python title 爬虫 标题 影评 字符串 字典


问题描述

今天在写爬虫爬取影评时,本来的思路把影评的标题作为文件名,将每个影评的详情内容写入到“标题.txt”文件中,直到我遇到了这个问题:

这时我突然意识到,文件名中有些字符是不能存在的,怎么解决这些问题呢?

解决问题

首先想到的就是在创建文件时去除掉这些标题中的不能用的字符,机制的我赶紧去重命名了桌面上的一个文件,试图试验出那些字符,然后,机智的微软爸爸早已洞悉了一切,

也就是说文件名中不可以包含

/ \ : * ? " < > |

这9个字符,因为考虑到直观性而且数据量不大,最简单的方法就是逐个过滤掉标题中的非法字符,即建立一个字典(这里的字典不是指python中的字典结构),对于每一个title都遍历一次,去除掉其中的非法字符,如下:

def correct_title(self, title):
    error_set = ['/', '\\', ':', '*', '?', '"', '|', '<', '>']
    for c in title:
        if c not in error_set:
            title.replace(c, '')
    return title

如此,就使用字符串的replace()达方法到了预期效果

总结

上述做法的主要目的是看着舒服,但实际上在使用和检索时效率不算高也不方便,具体如何做还是要看自己的需求来定

标签:字符,文件名,python,title,爬虫,标题,影评,字符串,字典
来源: https://www.cnblogs.com/chuaner/p/12242521.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有