数与计算机（编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数）

2019-09-02 17:37:42 阅读：404 来源： 互联网

标签：0000 0001 浮点数 float 1110 移码 normalized 定点数原码

#PS:这个只是《我自己》理解，如果和你的

#原则相冲突，请谅解，勿喷
测试环境：
ubuntu 18.04
Linux 4.15.0-54-generic #58-Ubuntu SMP Mon Jun 24 10:55:24 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

起因

有些时候，在测试深度学习的模型的时候，特别是模型出问题，或者其他乱七八糟的原因，你会发现某些层的某些特征会出现INF和NAN(特别是转换模型)。说实话，这两个一个是无穷大，一个是不是数字，我们都知道这个的意思，但是怎么出现的，可能都忘了。

我如果没有记错的话，数在计算机中的表示是来至于《计算机组成原理》，其中介绍了很多很多的有趣的原理。但是我出校后，这些理论知识很少和实际联系起来，趁着这次机会，我准备结合我们平常写的代码，理一理计算机中数的这个问题。

符号

在计算机里面，除了指令，就是数值或者符号（统一的说就是数值，因为数值和符号有映射关系，这就是符号编码），我也不知道这样说对不对。
本文主要是说的是数值。对于符号来说，符号涉及到编码问题，有兴趣的可以去了解了解，我们常见的编码就是ascii，utf-8, unicode，gbk，big5等等，这些编码涉及到符号显示的问题。

数值

数值大致有两类表示法，一类是定点数，一类是浮点数。
计算机中，对于整数来说，就是定点数表示法（这里对于整数的说法我也不太确定对不对，相关资料也没有查到明确的说法，但是我理解的是整数就是定点数表示法中，小数点在最右边），对于实数来说，就是浮点数表示法。

整数

在计算机中，在说明整数的定点数表示之前，还得说几个书上的理论：
原码：原码就是十进制转换为二进制。
反码：原码取反。
补码：反码+1。
（注意：如果是符号数，反码和补码运算不影响符号位。）

在计算机中，正整数的补码反码原码一样，负整数的补码是原码取反加1。

对于整数来说，可以分为有符号还是无符号的整数。

无符号数，是正整数，所以在计算机中是补码表示，且就是其十进制转换为二进制。

有符号整数，如果是正整数，计算机中补码表示，且就是其十进制转换为二进制（补码原码一样），如果是负整数，在计算机中表示，且就是其十进制转换为二进制，取补码。

实数

在计算机中，在说明浮点数表示法之前，还得说两个理论：
移码：N-M转换为二进制，M为偏移数。

二进制浮点数：整数部分直接转换为二进制（除2逆序取余），小数部分逼近求和（乘2正序取整）。（更详细的百度随便找个教程即可，我这里只是简单写一下）

规范化二进制浮点数：小数点前只有一个1。

IEEE 754：IEEE根据一些历史因素，定制的大部分通用的浮点数表示方法。以单精度浮点数为例，31位表示符号位，23-30位表示exponent（偏移数是M，指数为E.），0-22表示base(底数为B)，表示的浮点数为：B*(2^(E-M))

IEEE 754有很多特殊值，也有一些溢出规则和约等于规则，一般来说，除非你要做科学运算，平常你是遇不到的，简单了解一下即可。
IEEE 754规定的特殊值：
在这里插入图片描述

注意：其实浮点数还有其他的一些异常计算及表示，详细的请查看ieee 754 chapter7

实例分析

上面扯了半天，大家都看烦了，其实都是一些书本上的知识整理。
下面是实例源文件。

#include <cstring>
int main(int argc , char * argv[]){

//integer
	char A = 0xF1;//A = -15; size(A) = 1;mem=[1]111 0001(complement); mem=[1]000 1111(true form)
	short B = 0xF111;//B= -3823; size(B) = 2; mem = [1]111 0001 / 0001 0001 (complement); mem=[1]000 1110 / 1110 1111(true form)
	int C = 0xF1111111;//C = -250539759; size(C) = 4; mem = [1]111 0001 / 0001 0001 / 0001 0001 / 0001 0001 (complement); mem=[1]000 1110 / 1110 1110 / 1110 1110 / 1110 1111 (true form)
	long D = 0xF1111111;//D = -250539759(size(D)=4), 4044427537(size(D)=8); size(D) = 4; mem = [1]111 0001 / 0001 0001 / 0001 0001 / 0001 0001 (complement); mem=[1]000 1110 / 1110 1110 / 1110 1110 / 1110 1111 (true form)(Sizeof(D) may be 4 or 8, it decided by compiler)
	long long E = 0xF111111111111111;//E = -1076060070966390511; size(E) = 8; mem = [1]111 0001 / 0001 0001 / 0001 0001 / 0001 0001 / 0001 0001 / 0001 0001 / 0001 0001 / 0001 0001 (complement); mem=[1]000 1110 / 1110 1110 / 1110 1110 / 1110 1110 / 1110 1110 / 1110 1110 / 1110 1110 / 1110 1111 (true form)

	//overflow int
	int C1 = 0xF1111111FF;//drop highest byte(0xF1), it decided by compiler

	//overflow long long
	long long E1 = 0xF111111111111111FF;//drop highest byte(0xF1), it decided by compiler



//float, IEEE 754.
/*	
single-precision float
bits: [31] is signed bit, (30~23) is exponent, {22~0} is base

double-precision float
bits: [63] is signed bit, (62~52) is exponent, {51~0} is base
*/
	float F = -10;//size(F)=4, mem=[1](100 0001 / 0){010 0000 / 0000 0000 / 0000 0000}, [] is signed bit. () is exponent, {} is normalized base.(single-precision)
	double G = 10;//size(G)=8, mem=[0](100 0000 / 0010) {0100 / 0000 0000 / 0000 0000 / 0000 0000 / 0000 0000 / 0000 0000 / 0000 0000}, [] is signed bit. () is exponent, {} is normalized base.(double-precision)

	int tmp_buf = 0x00800001;
	float F_normalized_min = 0;
	memcpy(&F_normalized_min, &tmp_buf, sizeof(F_normalized_min));//size(F)=4
	float F_normalized_zero = F_normalized_min - 1; //-1


	float F_normalized_max = 0;
	tmp_buf = 0x7F7FFFFF;
	memcpy(&F_normalized_max, &tmp_buf, sizeof(F_normalized_max));//size(F)=4
	float F_normalized_infinity = F_normalized_max * F_normalized_max; //inf
	
	float F_normalized_nan = F_normalized_infinity / F_normalized_infinity;//nan

	//some fun value
	float F_fun_01 = 0.1;
	float F_fun_02 = 0.2;
	float F_fun_03 = 0.3;
	float F_fun_04 = 0.4;
	float F_fun_05 = 0.5;
	float F_fun_06 = 0.6;
	float F_fun_07 = 0.7;
	float F_fun_08 = 0.8;
	float F_fun_09 = 0.9;

	float F_denormalized_min = 0;
	tmp_buf = 0x00000001;
	memcpy(&F_denormalized_min, &tmp_buf, sizeof(F_denormalized_min));//size(F)=4
	float F_denormalized_max = 0;
	tmp_buf = 0x007FFFFF;
	memcpy(&F_denormalized_max, &tmp_buf, sizeof(F_denormalized_max));//size(F)=4




	return 0;
}

整数分析

有符号负整数：
在这里插入图片描述

（注意，x86，小端）

无符号整数、有符号正整数，就是直接10进制转换为二进制。

浮点数分析

规范化浮点数：
（数值：规范化浮点数最小正数）
在这里插入图片描述

（数值：规范化浮点数最大正数）

（数值：非规范化浮点数最小正数）

（数值：非规范化浮点数最大正数）

浮点数异常计算：
（数值：NAN）

（数值：INF）

一些有趣的浮点数

看了上边后，计算机关于浮点数的的存储其实是很离散的（很不靠谱），也就是说，很多浮点数计算机根本表示不出来（计算机只能够存储，实数数轴上极少部分的数），为什么呢？如果你要是了解了上面关于10进制浮点数转2进制浮点数，那么你可能已经猜到了原因。

在这里插入图片描述

下面我以0.1位例，分析一下，为啥会出现这样的问题。
在这里插入图片描述
0.1在计算机中表示为：
mem=[0](011 1101/ 1){100 1100/ 1100 1100/ 1100 1100}, [] is signed bit. () is exponent, {} is normalized base.(single-precision)

E=123
M=127
B=1.100 1100/ 1100 1100/ 1100 1100

F_fun_01 = B*2(^-4) = 0.0001100 1100/ 1100 1100/ 1100 1100 = 2^(-4) + 2^(-5) + 2^(-8) + 2^(-9) + 2^(-12) + 2^(-13) + 2^(-16) + 2^(-17) + 2^(-20) + 2^(-21) + 2^(-24) + 2^(-25)

正是因为在内存中表示的是这样的，所以这里打印出来的值看到不是0.1，而是0.1+。那么大家可能会疑惑，如果0.1都有误差，那计算的时候，不是炸了吗？其实不然，还记得c语言中一句话吗？float的精度为小数点后6位，为啥是6位，而不是10位，8位呢？其实原因就是来至于这里，计算机中，某些小数位后虽然还有值，但是不是有效的，但是这些值影响数值的舍进（类似与四舍五入的约等于，建议大致了解，知道有这个事情即可）。

总结

计算机里面，数的表示，就浮点数最难，但是只需要了解了大致的原理，你就会觉得非常简单。
其实对于计算机来说，数值的表示很弱的，离表示整个数轴差的远。
在计算机里面，数值有很多边界条件，比如溢出、异常运算、异常值，只是我们平常很少遇到，所以遗忘了。
同时也可以说明，其实计算机仅仅是个机器，只会冰冷的加载指令和数，并执行，只是我们的前辈们为我们做了很多事情，隔离了很多细节和底层，让我们觉得这些东西可有可无，极大的便利人们使用计算机。这样有好处也有坏处。
#PS：请尊重原创，不喜勿喷

有问题请留言，看到后我会第一时间回复

标签：0000,0001,浮点数,float,1110,移码,normalized,定点数,原码
来源： https://blog.csdn.net/u011728480/article/details/100277582

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

数与计算机 （编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数）

起因

符号

数值

整数

实数

实例分析

整数分析

浮点数分析

一些有趣的浮点数

总结

数与计算机（编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数）