ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python正则表达式基础入门

2022-01-01 12:30:19  阅读:174  来源: 互联网

标签:字符 代表 匹配 入门 Python python 正则表达式 我们


转自:微点阅读  https://www.weidianyuedu.com/content/3817028724129.html

正则表达式之所以难学,是因为它有大量的符号,每个符号的意义和用法又是不一样的,但是只要掌握了用法,正则表达式也可以很友好。

本文中所有的代码都在python的re模块下运行。

定义是定义,太正经了就没法用了。我们来举个栗子:假如你得到了一个网页的HTML源码。其中有一段

你想要把这个hello world提取出来,但你这时如果只会python 的字符串处理,那么第一反应可能是

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可,但是很麻烦不是吗。需要考虑多个标签,一不留神就多匹配到东西了,而如果想要非常准确的匹配到,又得多加循环判断,效率太低。

这时候,正则表达式就是首选的帮手。

首先,从最基础的正则表达式说起。

假设我们的想法是把一个字符串中的所有'python'给匹配到。我们试一试怎么做

看完这段代码,你是不是觉得:卧槽?这就是正则表达式?直接写上去就行?

确实,正则表达式并不像它表面上那么奇葩,如果不是我们故意改变一些符号的含义时,你看到的就是想要匹配的。

所以,先把大脑清空,先认为正则表达式就是和想要匹配的字符串长得一样。在之后的练习中我们会逐步进化

0.无论是python还是正则表达式都是区分大小写的,所以当你在上面那个例子上把'python'换成了'Python',那就匹配不到你心爱的python了。

1.重新回到第一个例子中那个<h1>hello world<h1>匹配。假如我这么写,会怎么样?

有了入门级的经验,我们知道那两个<h1>就是普普通通的字符,但是中间的是什么鬼?

.字符在正则表达式代表着可以代表任何一个字符(包括它本身)

findall返回的是所有符合要求的元素列表,包括仅有一个元素时,它还是给你返回的列表。

机智如你可能会突然问:那我如果就只是想匹配'.'呢?结果啥都给我返回了咋整?在正则表达式中有一个字符,其实如果你编程经验较多的话,你就会发现这是好多地方的“转义符”。

举个栗子,你真的想匹配'91127@weidianyuedu.com'这个邮箱(我的邮箱),你可以把正则表达式写成下面这个样子:

发现了吧,我们在.的前面加上了转义符,但是并不是代表匹配“.”的意思,而是只匹配“.”的意思!

不知道你细不细心,有没有发现我们第一次用.时,后面还跟了一个+?那这个加号是干什么的呢?

其实不难想,我们说了“.字符在正则表达式代表着可以代表任何一个字符(包括它本身)”,但是'hello world'可不是一个字符啊。

+的作用是将前面一个字符或一个子表达式重复一遍或者多遍。

比方说表达式“ab+”那么它能匹配到“abbbbb”,但是不能匹配到'a',它要求你必须得有个b,多了不限,少了不行。你如果问我有没有那种“有没有都行,有多少都行的表达方式”,回答是有的。

*跟在其他符号后面表达可以匹配到它0次或多次

比方说我们在王叶内遇到了链接,可能既有http://开头的,又有https://开头的,我们怎么处理?

输出

2.比方说我们有这么一个字符串'cat hat mat qat',你会发现前面三个是实际的单词,最后那个是我胡编乱造的。如果你本来就知道'at'前面是c、h、m其中之一时这才构成单词,你想把这样的匹配出来。根据已经学到的知识是不是会想到写出来三个正则表达式进行匹配?实际上不需要。因为有一种多字符匹方式

[]代表匹配里面的字符中的任意一个

还是举个栗子,我们发现啊,有的程序员比较过分,,在<html></html>这对标签上,大小写混用,老害得我们抓不到想要的东西,我们该怎么应对?是写16*16种正则表达式挨个匹配?no

输出

我们既然有了范围性的匹配,自然有范围性的排除。

[^]代表除了内部包含的字符以外都能匹配

还是cat,hat,mat,qat这个例子,我们想匹配除了qat以外的,那么就应该这么写:

输出

3.介绍到这里,我们可能已经掌握了大致的正则表达式的构造方式,但是我们常常会在实战中遇到一些匹配的不准确的问题。比方说:

输出结果

呦呵!你咋能多了呢?我理想的结果是@hit.,你咋还给我加量了呢?这是因为正则表达式默认是“贪婪”的,我们之前讲过,“+”代表是字符重复一次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符,在这个例子里也就是匹配到最后一个“.”。

我们怎么解决这种问题呢?只要在“+”后面加一个“?”就好了。

输出结果

加了一个“?”我们就将贪婪的“+”改成了懒惰的“+”。这对于[abc]+,w*之类的同样适用。

个人建议:在你使用'+',''的时候,一定先想好到底是用贪婪型还是懒惰型,尤其是当你用到范围较大的项目上时,因为很有可能它就多匹配字符回来给你!!!*

为了能够准确的控制重复次数,正则表达式还提供

{a,b}(代表a<=匹配次数<=b)

还是举个栗子,我们有sas,saas,saaas,我们想要sas和saas,我们怎么处理呢?

输出

如果你省略掉{1,2}中的2,那么就代表至少匹配一次,那么就等价于?

如果你省略掉{1,2}中的1,那么就代表至多匹配2次。

标签:字符,代表,匹配,入门,Python,python,正则表达式,我们
来源: https://blog.csdn.net/ysds20211402/article/details/122263188

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有