# redis6.0.5之lzf阅读笔记2--压缩

2021-07-12 17:31:06  阅读：83  来源： 互联网

```********************************************************************************************************************
#include "lzfP.h"

#define HSIZE (1 << (HLOG))
********************************************************************************************************************
/*
* don't play with this unless you benchmark!
* the data format is not dependent on the hash function.
* the hash function might seem strange, just believe me,
* it works ;)

hash函数看山去会比较奇怪，但是相信我，它能工作！
*/
#ifndef FRST
# define FRST(p) (((p[0]) << 8) | p[1])
# define NEXT(v,p) (((v) << 8) | p[2])
# if ULTRA_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h  ) & (HSIZE - 1))
# elif VERY_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# else
#  define IDX(h) ((((h ^ (h << 5)) >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# endif
#endif
/*
* IDX works because it is very similar to a multiplicative hash, e.g.
* ((h * 57321 >> (3*8 - HLOG)) & (HSIZE - 1))
* the latter is also quite fast on newer CPUs, and compresses similarly.
*
* the next one is also quite good, albeit slow ;)
* (int)(cos(h & 0xffffff) * 1e6)
*/

#if 0   不想用的代码
/* original lzv-like hash function, much worse and thus slower */

# define FRST(p) (p[0] << 5) ^ p[1]
# define NEXT(v,p) ((v) << 5) ^ p[2]
# define IDX(h) ((h) & (HSIZE - 1))
#endif

#define        MAX_LIT        (1 <<  5)
#define        MAX_OFF        (1 << 13)
#define        MAX_REF        ((1 << 8) + (1 << 3))

#if __GNUC__ >= 3     GCC3.0以上
# define expect(expr,value)         __builtin_expect ((expr),(value))  用于优化编译后的代码
# define inline                     inline
#else
# define expect(expr,value)         (expr)
# define inline                     static
#endif

#define expect_false(expr) expect ((expr) != 0, 0)
#define expect_true(expr)  expect ((expr) != 0, 1)

/*
* compressed format  压缩格式
*
* 000LLLLL <L+1>    ; literal, L+1=1..33 octets
不压缩的格式，最长可以表示32个不压缩字节，这里33应该为笔误
* LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset
压缩格式，短序列重复 这里4096也不对，应该为8192，
对于一个字符的重复不压缩，又因为LLL不能为0，否则会和不压缩的格式混淆，所以取值为1到6，加上2 ，也就是从3到8
因为如果只是压缩两个字节，没有任何意义，用原字符表示也只需两个字节，没有减少长度
* 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset
压缩格式， 长序列重复， 这里也是8192， 这里从9开始，因为短的(2到8)在上面已经包括了，最长为 2^8-1 + 9 = 263字节
*
*/
********************************************************************************************************************
unsigned int
lzf_compress (const void *const in_data, unsigned int in_len,
void *out_data, unsigned int out_len
#if LZF_STATE_ARG
, LZF_STATE htab
#endif
)
{
#if !LZF_STATE_ARG
LZF_STATE htab;
#endif
const u8 *ip = (const u8 *)in_data;  初始化指向数据的指针
u8 *op = (u8 *)out_data;  指向输出数据开始的指针
const u8 *in_end  = ip + in_len;  指向输入数据的结尾
u8 *out_end = op + out_len; 指向输出数据的结尾
const u8 *ref;

/* off requires a type wide enough to hold a general pointer difference.
off需要一个足够宽的类型来保存一个不同的指针
* ISO C doesn't have that (size_t might not be enough and ptrdiff_t only
* works for differences within a single object). We also assume that no
* no bit pattern traps. Since the only platform that is both non-POSIX
* and fails to support both assumptions is windows 64 bit, we make a
* special workaround for it.
ISO C 没有这样的类型(size_t可能大小，ptrdiff_t只是对单一对象的差值)，

*/
#if defined (WIN32) && defined (_M_X64)   64位的windos平台
unsigned _int64 off; /* workaround for missing POSIX compliance */  不兼容POSIX的解决方案
#else
unsigned long off;
#endif
unsigned int hval;
int lit;

if (!in_len || !out_len)  没有输入或输出，直接退出
return 0;

#if INIT_HTAB
memset (htab, 0, sizeof (htab));
-- 初始化hash表,这里sizeof (htab)的大小为2^16 * 4   sizeof(unsigned int) = 4 个字节
-- typedef unsigned int LZF_HSLOT; typedef LZF_HSLOT LZF_STATE[1 << (HLOG)];  HLOG = 16
#endif

lit = 0; op++; /* start run */

hval = FRST (ip);  获取前面的2个字节的数据
while (ip < in_end - 2)  如果指针ip指向比结尾少2个字节位置，则循环继续，这两个字节就是上面一开始就获取的hval
{
LZF_HSLOT *hslot;

hval = NEXT (hval, ip); 获取接下来的第三个字节，三个字节组成一个数
hslot = htab + IDX (hval);  定位到hash表的槽

ref = *hslot + LZF_HSLOT_BIAS;
指向引用的连续两个同样字符的位置，刚开始的时候为空，即*hslot中的值为0，ref指向传入数据开始位置

*hslot = ip - LZF_HSLOT_BIAS;
赋值新的字符串hash值的位置 给 hash表中对应槽的内容，这样下一次再进来的时候ref指向就有值了

if (1
#if INIT_HTAB
&& ref < ip /* the next test will actually take care of this, but this is faster */
下一个测试会实际的解决这个问题，但是这个更快
#endif
&& (off = ip - ref - 1) < MAX_OFF
&& ref > (u8 *)in_data   因为初始化的时候全部是这个初始值，这个判断表示是初始值，不用进行下一步对比
&& ref[2] == ip[2]
#if STRICT_ALIGN
&& ((ref[1] << 8) | ref[0]) == ((ip[1] << 8) | ip[0])
#else
&& *(u16 *)ref == *(u16 *)ip
#endif
)
{
/* match found at *ref++ */  在*ref++找到匹配项
unsigned int len = 2;
unsigned int maxlen = in_end - ip - len;
maxlen = maxlen > MAX_REF ? MAX_REF : maxlen;

if (expect_false (op + 3 + 1 >= out_end)) /* first a faster conservative test */ 首先是更快的保守测试
if (op - !lit + 3 + 1 >= out_end) /* second the exact but rare test */ 期次是精确而稀少的测试
return 0;

op [- lit - 1] = lit - 1; /* stop run */ 有新的匹配，需要将之前的非压缩字符保存起来
op -= !lit; /* undo run if length is zero */ 如果非压缩字符长度为0，那么就回退一个字节，长度为0不需要记录

for (;;) 开始对匹配的长度进行统计
{
if (expect_true (maxlen > 16))
{
len++; if (ref [len] != ip [len]) break;
因为匹配的长度至少为3，所以先加1到3，在进行比较下一个

len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;

len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;

len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;

len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
len++; if (ref [len] != ip [len]) break;
}

do
len++;  因为匹配的长度至少为3，所以先加1到3，在进行比较下一个，直到不相等为止
while (len < maxlen && ref[len] == ip[len]);

break;
}

len -= 2; /* len is now #octets - 1 */  这里的长度为实际字节数减2
ip++;  指向相等开始的下一个字符

if (len < 7)  长度小于7，那么使用第一种压缩格式
{
*op++ = (off >> 8) + (len << 5);  这里表示将偏移量向后移动8位，保留前面几位，最高三位表示长度
}
else
{
*op++ = (off >> 8) + (  7 << 5);
这里的7 << 5 就是将最高三位设置为111，标志是长序列重复压缩，将偏移量的高位设置和标志在同一字节
*op++ = len - 7;  将长度再减去7，进行保存(所以总的长度应该加上9)
}

*op++ = off;  将off低字节的值赋给下一个输出字节

lit = 0; op++; /* start run */ 开启下一段的压缩

ip += len + 1; 这里需要加上实际的长度，因为前面已经ip++了，所以  即只需要加 len+1 即可

if (expect_false (ip >= in_end - 2))   (ip >= in_end - 2)  为假的概率高，所以用expect_false，提高程序效率
break;

#if ULTRA_FAST || VERY_FAST 如果是超级快或者非常快，那么向后回退一格
--ip;
# if VERY_FAST && !ULTRA_FAST  如果是非常快但不是超级快，再向后回退一格
--ip;
# endif

hval = FRST (ip);

hval = NEXT (hval, ip);
htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
ip++;  加一个回去

# if VERY_FAST && !ULTRA_FAST

hval = NEXT (hval, ip);
htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
ip++;  再加一个回去，指向原先压缩之后的第一个字符
# endif
#else
平常情况，需要把这一路上的hash值全部记录下来，这样能压缩的会更多
ip -= len + 1;
do
{
hval = NEXT (hval, ip);
htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
ip++;
}
while (len--);
#endif
}
else
{
/* one more literal byte we must copy */ 我们必须再复制一个文本字节，输出第一个字节是用来表示原文标志的000LLLLL
if (expect_false (op >= out_end)) 当超出输出结尾长度时，退出, (大部分情况下是假的)
return 0;

lit++; *op++ = *ip++;   刚开始的时候，肯定没有相等的，所以lit(原字节)加1， 输出采用原来字节

if (expect_false (lit == MAX_LIT))  如果原字节的长度已经超过定义的最大长度32，那么结束这段序列，开始下一段
{
op [- lit - 1] = lit - 1; /* stop run */
负指针，向后回退lit个字节，-1是当前位置，再向前回退lit个字节，然后在这个位置写上长度值
lit = 0; op++; /* start run */开始新的一段
}
}
}
此处最多可缺少3个字节没有被处理，否则压缩结果长度超出太多,表示输出的缓存不够大
if (op + 3 > out_end) /* at most 3 bytes can be missing here */
return 0;

while (ip < in_end)
{
lit++; *op++ = *ip++; 挨个往后赋值，从ip赋值给op，lit计数

if (expect_false (lit == MAX_LIT)) 如果到最大计数，那么重新再来
{
op [- lit - 1] = lit - 1; /* stop run */
lit = 0; op++; /* start run */
}
}

op [- lit - 1] = lit - 1; /* end run */ 结束最后的非压缩段
op -= !lit; /* undo run if length is zero */ 长度为0就撤销

return op - (u8 *)out_data; 返回最后压缩的长度
}
*********************************************************************************************************************

LZF压缩格式分为三种：
1原文表示

000LLLLL <L+1>    ; literal, L+1=1..33 octets

2短序列重复

* LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset

对于一个字符的重复不压缩，又因为LLL不能为0，原文格式已经占用，也不能为111，因为111是长序列格式，

3长序列重复（超过8个字节重复）
111是长序列压缩的格式，后面5位和下下个字节一起组成偏移量,长度的则在下一个字节
111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset

*********************************************************************************************************************
********************lzf.h*************************************************************************************************
#include "lzfP.h"

#if AVOID_ERRNO
# define SET_ERRNO(n)
#else
# include <errno.h>
# define SET_ERRNO(n) errno = (n)
#endif

#if USE_REP_MOVSB /* small win on amd, big loss on intel */
#if (__i386 || __amd64) && __GNUC__ >= 3
# define lzf_movsb(dst, src, len)                \
asm ("rep movsb"                              \
: "=D" (dst), "=S" (src), "=c" (len)     \
:  "0" (dst),  "1" (src),  "2" (len));
#endif
#endif

#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic push
#pragma GCC diagnostic ignored "-Wimplicit-fallthrough"
#endif
unsigned int
lzf_decompress (const void *const in_data,  unsigned int in_len,
void             *out_data, unsigned int out_len)
{
u8 const *ip = (const u8 *)in_data;  输入数据开始位置
u8       *op = (u8 *)out_data;   输出数据开始位置
u8 const *const in_end  = ip + in_len;  输入数据结束位置
u8       *const out_end = op + out_len;  输出缓冲区结束位置

do
{
unsigned int ctrl = *ip++; 获取标志位

if (ctrl < (1 << 5)) /* literal run */ 原文表示，因为值小于2^5，所以是原文表示
{
ctrl++; 长度加1

if (op + ctrl > out_end) 是否超过缓冲区
{
SET_ERRNO (E2BIG); 提示错误
return 0;
}

#if CHECK_INPUT
if (ip + ctrl > in_end)  如果当前位置加上将要解压的长度超过 输入的缓冲区，说明出错
{
SET_ERRNO (EINVAL);
return 0;
}
#endif

#ifdef lzf_movsb  如果定义了更快的拷贝方法，就使用更快的方法
lzf_movsb (op, ip, ctrl);
#else
switch (ctrl) 挨个拷贝原文字符串
{
case 32: *op++ = *ip++; case 31: *op++ = *ip++; case 30: *op++ = *ip++; case 29: *op++ = *ip++;
case 28: *op++ = *ip++; case 27: *op++ = *ip++; case 26: *op++ = *ip++; case 25: *op++ = *ip++;
case 24: *op++ = *ip++; case 23: *op++ = *ip++; case 22: *op++ = *ip++; case 21: *op++ = *ip++;
case 20: *op++ = *ip++; case 19: *op++ = *ip++; case 18: *op++ = *ip++; case 17: *op++ = *ip++;
case 16: *op++ = *ip++; case 15: *op++ = *ip++; case 14: *op++ = *ip++; case 13: *op++ = *ip++;
case 12: *op++ = *ip++; case 11: *op++ = *ip++; case 10: *op++ = *ip++; case  9: *op++ = *ip++;
case  8: *op++ = *ip++; case  7: *op++ = *ip++; case  6: *op++ = *ip++; case  5: *op++ = *ip++;
case  4: *op++ = *ip++; case  3: *op++ = *ip++; case  2: *op++ = *ip++; case  1: *op++ = *ip++;
}
#endif
}
else /* back reference */ 非原文字符，需要根据偏移量和长度来拷贝
{
unsigned int len = ctrl >> 5;  首先获取长度或者控制字符

u8 *ref = op - ((ctrl & 0x1f) << 8) - 1;  偏移量的高5位 再减去1，进行回退(真正的偏移量还差低字节)

#if CHECK_INPUT
if (ip >= in_end) 如果已经到或者超过结束了，那么解压出错
{
SET_ERRNO (EINVAL);
return 0;
}
#endif
if (len == 7) 如果是长序列压缩  7就是111就是长序列
{
len += *ip++;  下一个字节就是长度
#if CHECK_INPUT
if (ip >= in_end)
{
SET_ERRNO (EINVAL);
return 0;
}
#endif
}

ref -= *ip++; 低字节的偏移量也要回退

if (op + len + 2 > out_end)  当前位置加解压长度加2超过 输出缓冲区结尾，解压出错
{
SET_ERRNO (E2BIG);
return 0;
}

if (ref < (u8 *)out_data)  如果引用值小于原字符序列开始值，解压也出错
{
SET_ERRNO (EINVAL);
return 0;
}

#ifdef lzf_movsb
len += 2;  长度值需要加2
lzf_movsb (op, ref, len);
#else
switch (len)
{
default:
len += 2;

if (op >= ref + len)
如果当前操作符所在位置大于  引用值 + 当前解压长度 所在位置，
那么表示前面重复的数据已经全部解压出来，否则就有重叠的数据还没有解压出来，需要挨个解压
{
/* disjunct areas */ 分开区域 即 不重合区域
memcpy (op, ref, len); 直接拷贝即可
op += len;
}
else
{
重合区域，一个字节一个字节的拷贝，就是压缩的时候引用了自身，例如
a123123123123abc,这里123123123就会被自身引用，导致数据
/* overlapping, use octte by octte copying */
do
*op++ = *ref++;
while (--len);
}

break;

case 9: *op++ = *ref++; /* fall-thru */  依次 下降拷贝
case 8: *op++ = *ref++; /* fall-thru */
case 7: *op++ = *ref++; /* fall-thru */
case 6: *op++ = *ref++; /* fall-thru */
case 5: *op++ = *ref++; /* fall-thru */
case 4: *op++ = *ref++; /* fall-thru */
case 3: *op++ = *ref++; /* fall-thru */
case 2: *op++ = *ref++; /* fall-thru */
case 1: *op++ = *ref++; /* fall-thru */
case 0: *op++ = *ref++; /* two octets more */  这里的两个字节就是加2的效果
*op++ = *ref++; /* fall-thru */
}
#endif
}
}
while (ip < in_end);

return op - (u8 *)out_data;
}
#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic pop
#endif
*********************************************************************************************************************```