ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

简述Unicode字符集、ASCII码与UTF-8编码的关系与区别

2021-10-23 17:32:37  阅读:186  来源: 互联网

标签:编码 UTF 字节 字符 字符集 Unicode 规则 ASCII


字符集与编码

字符集:考虑如何将字符映射成数字ID,不考虑传输和存储,只考虑每一个字符都对应唯一的数字
编码规则:考虑如何对目标进行编码,需要考虑传输和编码单位。

ASCII码

ASCII((American Standard Code for Information Interchange): 美国信息交换标准代码)码是最初美国国家标准,供不同计算机在相互通信时用作共同遵守的西文字符编码标准。由于他出现的早,所以即是字符映射规则,也是计算机使用字符时的传输和存储规则。所以即是字符集又是编码规则。规定8个二进制位为1字节。ASCII码长8位其中第一位为0所以其余7位可以表示2^7=128个字符

Unicode码

unicode码是由ISO组织提出,对世界上所有语言字符建立的编码,世界上每一个字符都对应唯一的一个固定长的8位十六进制编码(称为Code Point)。所以是一个字符集。

UTF-8码

由于unicode码所有常用和罕见字符均采用定长编码,所以一些字符可能出现大量补0的情况。于是utf-8编码出现了,它以8位为一个编码单位/传输单位,采用1~4个字节的可变长的规则(英文1字节、中文3字节,utf-8通过编码数字指定了一个字符用多少字节,方便计算机使用)对字符进行编码。其中常用字符的编码更短,罕见字符的编码更长,已达到节省存储空间的目的。是一种对于计算机的编码规则。

GBK/GB2312/GB18030

针对中文常用汉字(GB2312)、繁体字与字符(GBK)、多民族字符(GB18030)的字符进行的编码规则(向下兼容),适用于汉字。为什么有了UTF-8,GBK等规则还会频繁出现使用呢?因为它对于中文字符一般会更节省空间(中文2字符)。

标签:编码,UTF,字节,字符,字符集,Unicode,规则,ASCII
来源: https://www.cnblogs.com/zjq-blog/p/15449065.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有