长文深度解读HashMap

2021-03-31 17:03:22 阅读：191 来源： 互联网

标签：链表 hash HashMap 16 initialCapacity 解读 key 长文

主要静态变量

 static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; static final float DEFAULT_LOAD_FACTOR = 0.75f; static final int TREEIFY_THRESHOLD = 8; static final int UNTREEIFY_THRESHOLD = 6; static final int MIN_TREEIFY_CAPACITY = 64;
复制代码

DEFAULT_INITIAL_CAPACITY 默认的初始化容量，即16；
DEFAULT_LOAD_FACTOR 默认的负载因子
TREEIFY_THRESHOLD 当一个槽(或叫bin、buket)的链表长度到达改阈值时，是将链表转换为红黑树的一个必要条件，注意只是一个必要条件，并不是充分条件，后面马上就会说明原因。
UNTREEIFY_THRESHOLD 当一个槽数据退化到该阈值时，红黑树将退化成链表；
MIN_TREEIFY_CAPACITY 当容量小于该值时，即使链表长度到达TREEIFY_THRESHOLD 也不会转换红黑树，而是通过resize()的方式进行扩容。所以别再说当链表长度大于8时就会转换红黑树了，这个条件不具备的情况下是不会转换的，具体代码在treeifyBin()方法中，下面也会讲到。

这里说一个反常识，可能是因为八股文背得多了，大家对HashMap链表转红黑树慢慢的认为是一个很容易发生的情况，但是从源码中我们其实可以看到官方的一些理论数据如下，可见正常情况下一个HashMap中出现红黑树的可能性是非常低的。
 * Ideally, under random hashCodes, the frequency of * nodes in bins follows a Poisson distribution * (http://en.wikipedia.org/wiki/Poisson_distribution) with a * parameter of about 0.5 on average for the default resizing * threshold of 0.75, although with a large variance because of * resizing granularity. Ignoring variance, the expected * occurrences of list size k are (exp(-0.5) * pow(0.5, k) / * factorial(k)). The first values are: * * 0:    0.60653066 * 1:    0.30326533 * 2:    0.07581633 * 3:    0.01263606 * 4:    0.00157952 * 5:    0.00015795 * 6:    0.00001316 * 7:    0.00000094 * 8:    0.00000006 * more: less than 1 in ten million
复制代码

HashMap的构造方法

     public HashMap(int initialCapacity, float loadFactor) {         if (initialCapacity < 0)             throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);         if (initialCapacity > MAXIMUM_CAPACITY)             initialCapacity = MAXIMUM_CAPACITY;         if (loadFactor <= 0 || Float.isNaN(loadFactor))             throw new IllegalArgumentException("Illegal load factor: " + loadFactor);         this.loadFactor = loadFactor;         this.threshold = tableSizeFor(initialCapacity); //这个方法也很有意思，后面会讲     }     public HashMap(int initialCapacity) {         this(initialCapacity, DEFAULT_LOAD_FACTOR);     }      public HashMap() {         this.loadFactor = DEFAULT_LOAD_FACTOR;      }      public HashMap(Map<? extends K, ? extends V> m) {         this.loadFactor = DEFAULT_LOAD_FACTOR;         putMapEntries(m, false);     }
复制代码

这里值得注意的是，在构造方法中，除最后一个构造方法外，其他构造方法中并没有真的去初始化我们熟悉的链桶结构。

那什么时候初始化的呢？其实是在put()数据时才会触发真正的初始化，这里我理解为一种延迟初始化的策略。

还有一个常见的说法是在能够明确集合大概容量的情况下推荐使用HashMap(int initialCapacity)的方式进行构造，原因主要是这样减少了因为容量增长导致的resize()操作。

关于Hash()

HashMap的hash方法比较有意思，也能引一些代码细节上的思考。

    static final int hash(Object key) {         int h;         return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);     }
复制代码

为什么需要(h = key.hashCode()) ^ (h >>> 16) 即将key的hashcode的前16位与后16位进行异或操作。

在说原因之前我们看下这个hash值的使用场景一般是在计算一个key/value应该落在table[]的哪个槽里，会对key进行hash(key)操作，得到一个hash值，而槽的index的计算方式一般是(n - 1) & hash这里n 一般为2的整数次方，所以n-1的二级制一般是都是1，如8-1的二进制是111，16-1=binary:1111，所以(n-1)&hash肯定是小于等于n-1的，所以当hash满足随机性，其计算出来的index也具备随机性。那为何不直接使用hashCode呢？为啥还要多此一举搞一个异或呢？

这是因为通常情况下n的值不会特别大，这种计算方式往往只能与hash的后几位进行运算，这样就可能出现一些高位不同，地位相同的hash值计算出同一个结果，导致冲突概率增加。

所以回过来看一下(h = key.hashCode()) ^ (h >>> 16) 就能够理解一些了，将高位16位与低16位进行异或，让高位的随机性影响到地位，从而达到让冲突的概率更低的效果。

是不是很巧妙。

//先到这，待更新

标签：链表,hash,HashMap,16,initialCapacity,解读,key,长文
来源： https://blog.csdn.net/Java0258/article/details/115354732

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

长文深度解读HashMap

主要静态变量

HashMap的构造方法

关于Hash()