首页 > 数据库> 文章详细
redis6.0.5之lzf阅读笔记2--压缩

2021-07-12 17:31:06 阅读：168 来源： 互联网
标签：case redis6.0 -- ip len ++ op ref lzf
********************************************************************************************************************
#include "lzfP.h"

#define HSIZE (1 << (HLOG))
********************************************************************************************************************
/*
 * don't play with this unless you benchmark!
 * the data format is not dependent on the hash function.
 * the hash function might seem strange, just believe me,
 * it works ;)
不要修改这个，除非你做基准测试。这个数据格式不是依赖于hash函数。
hash函数看山去会比较奇怪，但是相信我，它能工作！
 */
#ifndef FRST
# define FRST(p) (((p[0]) << 8) | p[1])
# define NEXT(v,p) (((v) << 8) | p[2])
# if ULTRA_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h  ) & (HSIZE - 1))
# elif VERY_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# else
#  define IDX(h) ((((h ^ (h << 5)) >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# endif
#endif
/*
 * IDX works because it is very similar to a multiplicative hash, e.g.
 * ((h * 57321 >> (3*8 - HLOG)) & (HSIZE - 1))
 * the latter is also quite fast on newer CPUs, and compresses similarly.
 *
 * the next one is also quite good, albeit slow ;)
 * (int)(cos(h & 0xffffff) * 1e6)
 */

#if 0   不想用的代码
/* original lzv-like hash function, much worse and thus slower */
原始的类lzv哈希行数，更差，因此更慢(这里就不用了)
# define FRST(p) (p[0] << 5) ^ p[1]
# define NEXT(v,p) ((v) << 5) ^ p[2]
# define IDX(h) ((h) & (HSIZE - 1))
#endif

#define        MAX_LIT        (1 <<  5)
#define        MAX_OFF        (1 << 13)
#define        MAX_REF        ((1 << 8) + (1 << 3))

#if __GNUC__ >= 3     GCC3.0以上
# define expect(expr,value)         __builtin_expect ((expr),(value))  用于优化编译后的代码
# define inline                     inline
#else
# define expect(expr,value)         (expr)
# define inline                     static
#endif

#define expect_false(expr) expect ((expr) != 0, 0)
#define expect_true(expr)  expect ((expr) != 0, 1)

/*
 * compressed format  压缩格式
 *
 * 000LLLLL <L+1>    ; literal, L+1=1..33 octets  
 不压缩的格式，最长可以表示32个不压缩字节，这里33应该为笔误
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
 压缩格式，短序列重复 这里4096也不对，应该为8192，
 对于一个字符的重复不压缩，又因为LLL不能为0，否则会和不压缩的格式混淆，所以取值为1到6，加上2 ，也就是从3到8
 因为如果只是压缩两个字节，没有任何意义，用原字符表示也只需两个字节，没有减少长度
 * 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
 压缩格式， 长序列重复， 这里也是8192， 这里从9开始，因为短的(2到8)在上面已经包括了，最长为 2^8-1 + 9 = 263字节
 *
 */
********************************************************************************************************************
unsigned int
lzf_compress (const void *const in_data, unsigned int in_len,
          void *out_data, unsigned int out_len
#if LZF_STATE_ARG
              , LZF_STATE htab
#endif
              )
{
#if !LZF_STATE_ARG
  LZF_STATE htab;
#endif
  const u8 *ip = (const u8 *)in_data;  初始化指向数据的指针
        u8 *op = (u8 *)out_data;  指向输出数据开始的指针
  const u8 *in_end  = ip + in_len;  指向输入数据的结尾
        u8 *out_end = op + out_len; 指向输出数据的结尾
  const u8 *ref;

  /* off requires a type wide enough to hold a general pointer difference.
  off需要一个足够宽的类型来保存一个不同的指针
   * ISO C doesn't have that (size_t might not be enough and ptrdiff_t only
   * works for differences within a single object). We also assume that no
   * no bit pattern traps. Since the only platform that is both non-POSIX
   * and fails to support both assumptions is windows 64 bit, we make a
   * special workaround for it.
ISO C 没有这样的类型(size_t可能大小，ptrdiff_t只是对单一对象的差值)，
我们假定没有位模式陷阱。 因此唯一一个既不支持POSIX模式也不支持上述两种假设的平台是64位的windows，
所以我们为它采用了一个特殊的解决方案
   */
#if defined (WIN32) && defined (_M_X64)   64位的windos平台
  unsigned _int64 off; /* workaround for missing POSIX compliance */  不兼容POSIX的解决方案
#else
  unsigned long off;
#endif
  unsigned int hval;
  int lit;

  if (!in_len || !out_len)  没有输入或输出，直接退出
    return 0;

#if INIT_HTAB
  memset (htab, 0, sizeof (htab));  
  -- 初始化hash表,这里sizeof (htab)的大小为2^16 * 4   sizeof(unsigned int) = 4 个字节
  -- typedef unsigned int LZF_HSLOT; typedef LZF_HSLOT LZF_STATE[1 << (HLOG)];  HLOG = 16
#endif

  lit = 0; op++; /* start run */

  hval = FRST (ip);  获取前面的2个字节的数据
  while (ip < in_end - 2)  如果指针ip指向比结尾少2个字节位置，则循环继续，这两个字节就是上面一开始就获取的hval
    {
      LZF_HSLOT *hslot;  

      hval = NEXT (hval, ip); 获取接下来的第三个字节，三个字节组成一个数
      hslot = htab + IDX (hval);  定位到hash表的槽
      
      ref = *hslot + LZF_HSLOT_BIAS;  
      指向引用的连续两个同样字符的位置，刚开始的时候为空，即*hslot中的值为0，ref指向传入数据开始位置
      
      *hslot = ip - LZF_HSLOT_BIAS;  
      赋值新的字符串hash值的位置 给 hash表中对应槽的内容，这样下一次再进来的时候ref指向就有值了

      if (1
#if INIT_HTAB
          && ref < ip /* the next test will actually take care of this, but this is faster */ 
          下一个测试会实际的解决这个问题，但是这个更快
#endif
          && (off = ip - ref - 1) < MAX_OFF
          && ref > (u8 *)in_data   因为初始化的时候全部是这个初始值，这个判断表示是初始值，不用进行下一步对比
          && ref[2] == ip[2]
#if STRICT_ALIGN
          && ((ref[1] << 8) | ref[0]) == ((ip[1] << 8) | ip[0])
#else
          && *(u16 *)ref == *(u16 *)ip
#endif
        )
        {
          /* match found at *ref++ */  在*ref++找到匹配项
          unsigned int len = 2;
          unsigned int maxlen = in_end - ip - len;
          maxlen = maxlen > MAX_REF ? MAX_REF : maxlen;  

          if (expect_false (op + 3 + 1 >= out_end)) /* first a faster conservative test */ 首先是更快的保守测试
            if (op - !lit + 3 + 1 >= out_end) /* second the exact but rare test */ 期次是精确而稀少的测试
              return 0;

          op [- lit - 1] = lit - 1; /* stop run */ 有新的匹配，需要将之前的非压缩字符保存起来
          op -= !lit; /* undo run if length is zero */ 如果非压缩字符长度为0，那么就回退一个字节，长度为0不需要记录

          for (;;) 开始对匹配的长度进行统计
            {
              if (expect_true (maxlen > 16))
                {
                  len++; if (ref [len] != ip [len]) break; 
                  因为匹配的长度至少为3，所以先加1到3，在进行比较下一个
                  
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                }

              do
                len++;  因为匹配的长度至少为3，所以先加1到3，在进行比较下一个，直到不相等为止
              while (len < maxlen && ref[len] == ip[len]);

              break;
            }

          len -= 2; /* len is now #octets - 1 */  这里的长度为实际字节数减2
          ip++;  指向相等开始的下一个字符

          if (len < 7)  长度小于7，那么使用第一种压缩格式
            {
              *op++ = (off >> 8) + (len << 5);  这里表示将偏移量向后移动8位，保留前面几位，最高三位表示长度
            }
          else
            {
              *op++ = (off >> 8) + (  7 << 5); 
              这里的7 << 5 就是将最高三位设置为111，标志是长序列重复压缩，将偏移量的高位设置和标志在同一字节
              *op++ = len - 7;  将长度再减去7，进行保存(所以总的长度应该加上9)
            }

          *op++ = off;  将off低字节的值赋给下一个输出字节

          lit = 0; op++; /* start run */ 开启下一段的压缩

          ip += len + 1; 这里需要加上实际的长度，因为前面已经ip++了，所以  即只需要加 len+1 即可

          if (expect_false (ip >= in_end - 2))   (ip >= in_end - 2)  为假的概率高，所以用expect_false，提高程序效率
            break;
            
#if ULTRA_FAST || VERY_FAST 如果是超级快或者非常快，那么向后回退一格
          --ip;
# if VERY_FAST && !ULTRA_FAST  如果是非常快但不是超级快，再向后回退一格
          --ip;
# endif
这里目的是记录不同的字符的hash值，跳过就记录的少一点，超级快和非常快只差一格
所以超级快只有一个hash值，回退了一个字符
          hval = FRST (ip); 

          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  加一个回去

# if VERY_FAST && !ULTRA_FAST  
但是非常快回退了两个字符，需要再记录一个hash值
          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  再加一个回去，指向原先压缩之后的第一个字符
# endif
#else
    平常情况，需要把这一路上的hash值全部记录下来，这样能压缩的会更多
          ip -= len + 1;            
          do
            {
              hval = NEXT (hval, ip);
              htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
              ip++;
            }
          while (len--);
#endif
        }
      else
        {
          /* one more literal byte we must copy */ 我们必须再复制一个文本字节，输出第一个字节是用来表示原文标志的000LLLLL
          if (expect_false (op >= out_end)) 当超出输出结尾长度时，退出, (大部分情况下是假的)
            return 0;

          lit++; *op++ = *ip++;   刚开始的时候，肯定没有相等的，所以lit(原字节)加1， 输出采用原来字节

          if (expect_false (lit == MAX_LIT))  如果原字节的长度已经超过定义的最大长度32，那么结束这段序列，开始下一段
            {
              op [- lit - 1] = lit - 1; /* stop run */  
              负指针，向后回退lit个字节，-1是当前位置，再向前回退lit个字节，然后在这个位置写上长度值
              lit = 0; op++; /* start run */开始新的一段
            }
        }
    }
  此处最多可缺少3个字节没有被处理，否则压缩结果长度超出太多,表示输出的缓存不够大
  if (op + 3 > out_end) /* at most 3 bytes can be missing here */   
    return 0;

  while (ip < in_end)
    {
      lit++; *op++ = *ip++; 挨个往后赋值，从ip赋值给op，lit计数

      if (expect_false (lit == MAX_LIT)) 如果到最大计数，那么重新再来
        {
          op [- lit - 1] = lit - 1; /* stop run */
          lit = 0; op++; /* start run */
        }
    }

  op [- lit - 1] = lit - 1; /* end run */ 结束最后的非压缩段
  op -= !lit; /* undo run if length is zero */ 长度为0就撤销

  return op - (u8 *)out_data; 返回最后压缩的长度
}
*********************************************************************************************************************
花了3天的时间熟悉这个lzf算法，因为给出的网页（http://liblzf.plan9.de/）不能访问，所以主要根据代码debug来验证所想
前面的部分程序说明是过时或有笔误的，特别是对压缩格式的说明，先重新说明如下：
LZF压缩格式分为三种：
1原文表示
前面的000表示压缩格式，000是指原文，LLLLL表示原文的长度，这里默认需要加1
000LLLLL <L+1>    ; literal, L+1=1..33 octets  
不压缩的格式，最长可以表示32个不压缩字节，这里33应该为笔误
 
2短序列重复
这种格式是对于短序列的重复，为什么要设置这种格式，因为实际中短序列重复是比较多的，
如果也和长序列重复一样采用三个字节代价太高，所以这里采用了两个字节的压缩方式。
前面的三位LLL表示长度，后面是原字节的偏移量，就是当前位置和原字符串所在的位置的差值
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
这里4096也估计也不对，应该为8192，
 对于一个字符的重复不压缩，又因为LLL不能为0，原文格式已经占用，也不能为111，因为111是长序列格式，
所以取值为1到6，加上2 ，也就是从3到8
 
这里需要说明 ：因为如果只是压缩两个字节，没有任何意义，用原字符表示也只需两个字节，没有减少长度，
所以压缩的长度至少从3开始
 
3长序列重复（超过8个字节重复） 
111是长序列压缩的格式，后面5位和下下个字节一起组成偏移量,长度的则在下一个字节
111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
压缩格式， 长序列重复， 这里也是8192， 
这里从9开始，因为短的(2到8)在上面已经包括了，最长为 2^8-1 + 9 = 264字节


整体的核心算法如下：

根据输入的数据，按每3个字节进行对比，如果后续的3个字节和前面的3个字节出现重复（3个字节是最短的有利于压缩的长度）,
那么就可以继续对比第4个字节，依次往下，直到不等为止。
这部分数据就可以用前面的数据来表示(需要记录从哪里开始，长度是多少，这两个关键要素)，
对于不重复的数据，那么需要将其原本记录下来，供后面输入的数据进行对比使用。

那么如何判别是否出现过重复的数据： 这里使用了一个3字节的hash映射，如果出现同样的三字节，那么映射值也必相等，
就可以从这个HASH映射中获取前面出现过的数据进行记录。 当然这里hash映射值会进行动态的调整，总是最近的一个引用值。
这个保证了引用的总是举例自己最近的重复数据
具体说明见源码解释。

*********************************************************************************************************************
********************lzf.h*************************************************************************************************
#include "lzfP.h"

#if AVOID_ERRNO
# define SET_ERRNO(n)
#else
# include <errno.h>
# define SET_ERRNO(n) errno = (n)
#endif

#if USE_REP_MOVSB /* small win on amd, big loss on intel */
#if (__i386 || __amd64) && __GNUC__ >= 3
# define lzf_movsb(dst, src, len)                \
   asm ("rep movsb"                              \
        : "=D" (dst), "=S" (src), "=c" (len)     \
        :  "0" (dst),  "1" (src),  "2" (len));
#endif
#endif

#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic push
#pragma GCC diagnostic ignored "-Wimplicit-fallthrough"
#endif
unsigned int
lzf_decompress (const void *const in_data,  unsigned int in_len,
                void             *out_data, unsigned int out_len)
{
  u8 const *ip = (const u8 *)in_data;  输入数据开始位置
  u8       *op = (u8 *)out_data;   输出数据开始位置
  u8 const *const in_end  = ip + in_len;  输入数据结束位置
  u8       *const out_end = op + out_len;  输出缓冲区结束位置

  do
    {
      unsigned int ctrl = *ip++; 获取标志位

      if (ctrl < (1 << 5)) /* literal run */ 原文表示，因为值小于2^5，所以是原文表示
        {
          ctrl++; 长度加1
 
          if (op + ctrl > out_end) 是否超过缓冲区
            {
              SET_ERRNO (E2BIG); 提示错误
              return 0;
            }

#if CHECK_INPUT
          if (ip + ctrl > in_end)  如果当前位置加上将要解压的长度超过 输入的缓冲区，说明出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }
#endif

#ifdef lzf_movsb  如果定义了更快的拷贝方法，就使用更快的方法
          lzf_movsb (op, ip, ctrl);
#else
          switch (ctrl) 挨个拷贝原文字符串
            {
              case 32: *op++ = *ip++; case 31: *op++ = *ip++; case 30: *op++ = *ip++; case 29: *op++ = *ip++;
              case 28: *op++ = *ip++; case 27: *op++ = *ip++; case 26: *op++ = *ip++; case 25: *op++ = *ip++;
              case 24: *op++ = *ip++; case 23: *op++ = *ip++; case 22: *op++ = *ip++; case 21: *op++ = *ip++;
              case 20: *op++ = *ip++; case 19: *op++ = *ip++; case 18: *op++ = *ip++; case 17: *op++ = *ip++;
              case 16: *op++ = *ip++; case 15: *op++ = *ip++; case 14: *op++ = *ip++; case 13: *op++ = *ip++;
              case 12: *op++ = *ip++; case 11: *op++ = *ip++; case 10: *op++ = *ip++; case  9: *op++ = *ip++;
              case  8: *op++ = *ip++; case  7: *op++ = *ip++; case  6: *op++ = *ip++; case  5: *op++ = *ip++;
              case  4: *op++ = *ip++; case  3: *op++ = *ip++; case  2: *op++ = *ip++; case  1: *op++ = *ip++;
            }
#endif
        }
      else /* back reference */ 非原文字符，需要根据偏移量和长度来拷贝
        {
          unsigned int len = ctrl >> 5;  首先获取长度或者控制字符

          u8 *ref = op - ((ctrl & 0x1f) << 8) - 1;  偏移量的高5位 再减去1，进行回退(真正的偏移量还差低字节)

#if CHECK_INPUT
          if (ip >= in_end) 如果已经到或者超过结束了，那么解压出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }
#endif
          if (len == 7) 如果是长序列压缩  7就是111就是长序列
            {
              len += *ip++;  下一个字节就是长度
#if CHECK_INPUT
              if (ip >= in_end) 
                {
                  SET_ERRNO (EINVAL);
                  return 0;
                }
#endif
            }

          ref -= *ip++; 低字节的偏移量也要回退

          if (op + len + 2 > out_end)  当前位置加解压长度加2超过 输出缓冲区结尾，解压出错
            {
              SET_ERRNO (E2BIG);
              return 0;
            }

          if (ref < (u8 *)out_data)  如果引用值小于原字符序列开始值，解压也出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }

#ifdef lzf_movsb
          len += 2;  长度值需要加2
          lzf_movsb (op, ref, len);
#else
          switch (len)
            {
              default:
                len += 2;

                if (op >= ref + len)
                如果当前操作符所在位置大于  引用值 + 当前解压长度 所在位置，
                那么表示前面重复的数据已经全部解压出来，否则就有重叠的数据还没有解压出来，需要挨个解压
                  {
                    /* disjunct areas */ 分开区域 即 不重合区域
                    memcpy (op, ref, len); 直接拷贝即可
                    op += len;
                  }
                else
                  {
                  重合区域，一个字节一个字节的拷贝，就是压缩的时候引用了自身，例如
                  a123123123123abc,这里123123123就会被自身引用，导致数据
                    /* overlapping, use octte by octte copying */ 
                    do
                      *op++ = *ref++; 
                    while (--len);
                  }

                break;

              case 9: *op++ = *ref++; /* fall-thru */  依次 下降拷贝
              case 8: *op++ = *ref++; /* fall-thru */
              case 7: *op++ = *ref++; /* fall-thru */
              case 6: *op++ = *ref++; /* fall-thru */
              case 5: *op++ = *ref++; /* fall-thru */
              case 4: *op++ = *ref++; /* fall-thru */
              case 3: *op++ = *ref++; /* fall-thru */
              case 2: *op++ = *ref++; /* fall-thru */
              case 1: *op++ = *ref++; /* fall-thru */
              case 0: *op++ = *ref++; /* two octets more */  这里的两个字节就是加2的效果
                      *op++ = *ref++; /* fall-thru */
            }
#endif
        }
    }
  while (ip < in_end);  

  return op - (u8 *)out_data;
}
#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic pop
#endif
*********************************************************************************************************************
标签：case,redis6.0,--,ip,len,++,op,ref,lzf
来源： https://www.cnblogs.com/cquccy/p/15002931.html
本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。
ICode9

redis6.0.5之lzf阅读笔记2--压缩