标签:non-greedy python python-3-x regex regex-greedy
我正在处理成绩单,并且在以非贪婪的方式匹配模式方面遇到困难.它仍然抓得太多,看起来像在做贪婪的比赛.
成绩单如下:
>> John doe:您好,我是John Doe.
>>你好,我是Jane Doe.
>>感谢您的光临,我们将在两分钟后开始.
>>山姆史密斯:[没有音频]大家早上好.
要在>>中找到发言人的姓名(无论名称):我写道
pattern=re.compile(r'>>(.*?):')
transcript='>> John doe: Hello, I am John Doe. >> Hello, I am Jane Doe. >> Thank you for coming, we will start in two minutes. >> Sam Smith: [no audio] Good morning, everyone.'
re.findall(pattern, transcript)
我期待’John Doe’和’Sam Smith’,但它给了我’John Doe’和’你好,我是Jane Doe. >>感谢您的光临,我们将在两分钟后开始. >>山姆史密斯’
我很困惑因为.*?是非贪婪的,我认为应该能够抓住’Sam Smith’.我该如何修复代码,以便它只能抓取任何内容
>> (无论名称):?另外,我使用的是Python 3.6.
谢谢!
解决方法:
你真的需要正则表达式吗?您可以拆分>>提示然后过滤掉你的名字.
>>> [i.split(':')[0].strip() for i in transcript.split('>>') if ':' in i]
['John doe', 'Sam Smith']
标签:non-greedy,python,python-3-x,regex,regex-greedy 来源: https://codeday.me/bug/20190731/1587394.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。