ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python爬虫-正则

2021-11-19 09:31:41  阅读:129  来源: 互联网

标签:字符 匹配 数字 Python 爬虫 重复 正则 字符串 换行符


介绍:

是 一门全新的语言,一种使用表达式的方式对字符串进行匹配的语法规则

我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再适合不过

 

优点:速度快、效率高、准确性高

缺点:新手难度高

 

在线测试网站:

https://tool.oschina.net/regex/

 

常用元字符:

.       匹配除换行符以外的任意字符
           (注意:在未来Python的re模块中是一个坑——不能匹配换行符)
\w      匹配字母或数字或下划线
\d          匹配数字

^           匹配字符串的开始
$           匹配字符串的结尾

\W          匹配除了字母或数字或下划线
\D          匹配非数字
\S          匹配非空白符

a|b         匹配字符a或字符b
()          匹配括号内的表达式,也表示一个组
[...]       匹配字符组中的字符
[^...]      匹配除了字符组中字符的所有字符


*\s         匹配任意的空白符*
*\n         匹配一个换行符*
*\t         匹配一个制表符*

 

 

量词:

*         重复0次或更多次
+         重复1次或更多次
?        重复0次或一次

*{n}      重复n次*
*{n,}     重复N次或更多次*
*{n,m}   重复n到m次*

 

贪婪匹配和惰性匹配:

.*        贪婪匹配  #尽可能多的匹配结果
.*?        惰性匹配  #尽可能少的匹配内容——>回溯

 

标签:字符,匹配,数字,Python,爬虫,重复,正则,字符串,换行符
来源: https://www.cnblogs.com/wangsiy/p/15575682.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有