标签:匹配 less hMpxV sed 贪婪 fasta gisaid
场景
从GISAID上面批量下载下来的序列id很长,格式如下:
太长了,并且makeblastdb的时候-parse_seqids参数会导致报错,大概是长度太长不符合要求无法处理之类的。
不作处理去掉-parse_seqids也没问题,不过怕后期引起不必要的麻烦,这个时候就需要处理一下这些id
sed
想着直接sed处理一下就好,因为有两个“|”存在,结果发现sed没法做到非贪婪……
grep '>' ../gisaid.fasta|sed s/hMpxV.*?\|//g|less
没效果啊~
添加-r
用扩展的正则也没用~
看help,sed
也没有-p
参数……
原来sed并不支持“非贪婪”的正则,有地方是这么解释的:
https://www.codenong.com/40117611/
https://qa.1r1g.com/sf/ask/2808232801/
大概就是说非贪婪匹配是通过perl的PCRE引入主流的,而sed的规范比PCRE早了好几年……
有点难以令人信服……
不支持就绕道吧,不要中间有“|”就得了
grep '>' ../gisaid.fasta|sed s/hMpxV[^\|]*\|//g|less
就这样吧
sed -i s/hMpxV[^\|]*\|//g gisaid.fasta
sed -i s/\|.*//g gisaid.fasta
标签:匹配,less,hMpxV,sed,贪婪,fasta,gisaid 来源: https://www.cnblogs.com/jianmxqc/p/16696071.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。