ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

在Python中检查unicode字符串是否为NFC的有效方法?

2019-06-09 06:43:55  阅读:388  来源: 互联网

标签:python unicode normalization python-unicode unicode-normalization


我想检查字符串是否已经是NFC格式.目前我这样做:

unicodedata.normalize('NFC', s) == s

我这样做是为了大量的字符串,所以我想要高效.上述方法似乎很浪费.它转换为NFC,然后进行字符串比较.

有更有效的方法吗?我考虑过:

len(unicodedata.normalize('NFC', s)) == len(s)

这避免了字符串比较.但我不确定这是否总是正确的.如果NFC标准化始终改变非NFC字符串的长度,则此方法有效.这是一个有效的假设吗?

还有其他想法吗?

解决方法:

规范化不一定会改变字符串的长度.例如,’Ω'(U 2126)在NFC之后变为’Ω'(U 03A9).

Unicode数据库中有一个规范化“quick check” property来测试一个字符是否已经规范化,但遗憾的是Python的unicodedata模块没有公开它.但是,如果字符串已经规范化,unicodedata.normalize()会使用此属性来避免执行任何额外的工作 – 它只返回输入字符串.

要访问此属性,您需要自己从Unicode字符数据库中编译表,或者使用带有Python绑定的更广泛的Unicode库(如PyICU).

标签:python,unicode,normalization,python-unicode,unicode-normalization
来源: https://codeday.me/bug/20190609/1203366.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有