索引原理

2019-07-15 18:00:25 阅读：180 来源： 互联网

索引简述:

索引是一个排序的列表，在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址，在数据十分庞大的时候，索引可以大大加快查询的速度，这是因为使用索引后可以不用扫描全表来定位某行的数据，而是先通过索引表找到该行数据对应的物理地址然后访问相应的数据。

我们可以用大白话理解一下:

假如我们一般习惯于使用模糊查询,那么如果在数据量千万级别甚至以上的基础下我们如果不进行优化,那么查询速度会大大降低

举一个很鲜明的例子:

我们小时候都用过字典如果我们不使用目录去进行查询,我们想找到一个字在多少页 你需要从前向后翻,想想一下字典有多厚~但是我们如果利用目录去进行查询,那么就会很快的查询到具体字的位置.我们可以把字典中的目录理解为索引

那么如何深入的去了解索引呢?

我们先去了解一下如何给数据库表添加索引:
①在创建表的时候添加索引:

CREATE TABLE mytable(  
    ID INT NOT NULL,   
    username VARCHAR(16) NOT NULL,  
    INDEX [索引名称] (要设置索引的列名(列的长度))  
);

②在创建表之后添加索引:

ALTER TABLE 表名 ADD [UNIQUE] INDEX 索引名称(表中列名);
或者
CREATE INDEX 索引名称 ON 表名(列名);

注意点:

索引是需要占据磁盘空间的,在创建索引的同时需要注意是否空间够用.
创建索引时需要对表进行加锁,因此实际操作中需要在业务休闲时进行.

根据索引查询:

具体查询：
SELECT * FROM table_name WHERE column_1=column_2;(为column_1建立了索引)
 
或者模糊查询
SELECT * FROM table_name WHERE column_1 LIKE '%三'
SELECT * FROM table_name WHERE column_1 LIKE '三%'
SELECT * FROM table_name WHERE column_1 LIKE '%三%'
 
SELECT * FROM table_name WHERE column_1 LIKE '_好_'
 
如果要表示在字符串中既有A又有B，那么查询语句为：
SELECT * FROM table_name WHERE column_1 LIKE '%A%' AND column_1 LIKE '%B%';
 
SELECT * FROM table_name WHERE column_1 LIKE '[张李王]三';  //表示column_1中有匹配张三、李三、王三的都可以
SELECT * FROM table_name WHERE column_1 LIKE '[^张李王]三';  //表示column_1中有匹配除了张三、李三、王三的其他三都可以
 
//在模糊查询中，%表示任意0个或多个字符；_表示任意单个字符（有且仅有），通常用来限制字符串长度;[]表示其中的某一个字符；[^]表示除了其中的字符的所有字符
 
或者在全文索引中模糊查询
SELECT * FROM table_name WHERE MATCH(content) AGAINST('word1','word2',...);

删除索引

DROP INDEX my_index ON tablename；
或者
ALTER TABLE table_name DROP INDEX index_name;

查看表中的索引

SHOW INDEX FROM 表名

查看查询语句使用索引的情况

//explain 加查询语句
explain SELECT * FROM table_name WHERE column_1='123';

索引的分类

常见的索引类型:主键索引 唯一索引 普通索引 全文索引 组合索引

1、主键索引：即主索引，根据主键pk_clolum（length）建立索引，不允许重复，不允许空值；

ALTER TABLE 'table_name' ADD PRIMARY KEY pk_index('col')；

2、唯一索引：用来建立索引的列的值必须是唯一的，允许空值

ALTER TABLE 'table_name' ADD UNIQUE index_name('col')；

3、普通索引：用表中的普通列构建的索引，没有任何限制

ALTER TABLE 'table_name' ADD INDEX index_name('col')；

4、全文索引：用大文本对象的列构建的索引（下一部分会讲解）

ALTER TABLE 'table_name' ADD FULLTEXT INDEX ft_index('col')；

5、组合索引：用多个列组合构建的索引，这多个列中的值不允许有空值

ALTER TABLE 'table_name' ADD INDEX index_name('col1','col2','col3')；

针对于组合索引,遵循"最左前缀原则",把最常用的作为检索或排序的列放在最左,依次递减,组合索引相当于建立了col1,col2,col1col2col3 三个索引,而col2或者col3是不能使用索引的.
在使用组合索引的时候可能因为列名长度过长而导致索引的key太大，导致效率降低，在允许的情况下，可以只取col1和col2的前几个字符作为索引

ALTER TABLE 'table_name' ADD INDEX index_name(col1(4),col2（3))；

表中使用col1的前四个字符和col2的前三个字符作为索引.

索引的实现原理

mysql支持诸多存储引擎,而每种引擎所对索引的支持也各不相同,因此mysql数据库支持多种索引类型.

说到了索引实现原理,那么就不得不说索引实现原理所依赖的算法(二分查找法).

二分查找法(折半查找)

在这里插入图片描述
要实现此功能需要两个前提:

线性表必须采用顺序存储结构
表中元素按关键字有序排列

查找过程

首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。

比较次数

计算公式： a<log2(下)n(上)<b(a,b,n属于Z+(上))
当顺序表有n个关键字时：
查找失败时，至少比较a次关键字；查找成功时，最多比较关键字次数是b。
注意：a,b,n均为正整数。

代码提示

public static int binarySearch(Integer[] srcArray, int des) {
    //定义初始最小、最大索引
    int start = 0;
    int end = srcArray.length - 1;
    //确保不会出现重复查找，越界
    while (start <= end) {
        //计算出中间索引值
        int middle = (end + start)>>>1 ;//防止溢出
        if (des == srcArray[middle]) {
            return middle;
        //判断下限
        } else if (des < srcArray[middle]) {
            end = middle - 1;
        //判断上限
        } else {
            start = middle + 1;
        }
    }
    //若没有，则返回-1
    return -1;
}

了解二分查找法后你会觉得B树索引以及其扩展很像二分查找~

二叉树示意图

在这里插入图片描述

所有节点最多拥有两个子节点
左边节点的键值小于根的键值,右边节点的键值大于根的键值

注意:

查看上面可以看到数据排列很均匀,但是假如数据本身排列并不是这样均匀呢?
那么我们就会看到不均匀的排列样式.
在这里插入图片描述

那么查找速度跟什么有关系呢?

从二叉树的结构上看,从顶点开始进行查询,如果数据很多,那么二叉树的高度就会很高,加入我们想要查询的那个数据在最下面,那么就会导致查询效率的减小,所以二叉树的查询速度跟二叉树的高度成反比~

由于二叉树当数据排列并不均匀时两边节点高度极度不一致导致出现不稳定的二叉树导致了树结构的检索效率低下,为了解决这个问题引入增加了平衡算法的树结构(Treap、红黑树)

平衡二叉树

在这里插入图片描述
特点:

所有节点最多拥有两个子节点；
左边的子节点要小于当前节点、右边子节点大于当前节点；
树的左右两边的层级数相差不会大于1;

思考:

现在平衡二叉树虽然看似很平衡,但是我们能否继续进行优化进而提升查询效率呢?

引入B树

B树

和平衡二叉树稍有不同的是B树属于多叉树又名平衡多路查找树

在这里插入图片描述
下面提供一个网址用来进行B树的简单模拟

https://www.cs.usfca.edu/~galles/visualization/BST.html

B树思考:是否一个树的节点挂的节点越多越好?

此刻我们需要了解一下磁盘读取数据的过程~

外存储器-磁盘

计算机存储设备一般分为两种：内存储器(main memory)和外存储器(external memory)。内存存取速度快，但容量小，价格昂贵，而且不能长期保存数据(在不通电情况下数据会消失)。

外存储器—磁盘是一种直接存取的存储设备(DASD)。它是以存取时间变化不大为特征的。可以直接存取任何字符组，且容量大、速度较其它外存设备更快。

磁盘的构造

磁盘是一个扁平的圆盘(与电唱机的唱片类似)。盘面上有许多称为磁道的圆圈，数据就记录在这些磁道上。磁盘可以是单片的，也可以是由若干盘片组成的盘组，每一盘片上有两个面。如下图11.3中所示的6片盘组为例，除去最顶端和最底端的外侧面不存储数据之外，一共有10个面可以用来保存信息。
在这里插入图片描述
当磁盘驱动器执行读/写功能时。盘片装在一个主轴上，并绕主轴高速旋转，当磁道在读/写头(又叫磁头) 下通过时，就可以进行数据的读 / 写了。

一般磁盘分为固定头盘(磁头固定)和活动头盘。固定头盘的每一个磁道上都有独立的磁头，它是固定不动的，专门负责这一磁道上数据的读/写。

活动头盘 (如上图)的磁头是可移动的。每一个盘面上只有一个磁头(磁头是双向的，因此正反盘面都能读写)。它可以从该面的一个磁道移动到另一个磁道。所有磁头都装在同一个动臂上，因此不同盘面上的所有磁头都是同时移动的(行动整齐划一)。当盘片绕主轴旋转的时候，磁头与旋转的盘片形成一个圆柱体。各个盘面上半径相同的磁道组成了一个圆柱面，我们称为柱面。因此，柱面的个数也就是盘面上的磁道数。

磁盘的读/写原理和效率

磁盘上数据必须用一个三维地址唯一标示：柱面号、盘面号、块号(磁道上的盘块)。

读/写磁盘上某一指定数据需要下面3个步骤：

(1) 首先移动臂根据柱面号使磁头移动到所需要的柱面上，这一过程被称为定位或查找。

(2) 如上图11.3中所示的6盘组示意图中，所有磁头都定位到了10个盘面的10条磁道上(磁头都是双向的)。这时根据盘面号来确定指定盘面上的磁道。

(3) 盘面确定以后，盘片开始旋转，将指定块号的磁道段移动至磁头下。

经过上面三个步骤，指定数据的存储位置就被找到。这时就可以开始读/写操作了。

访问某一具体信息，由3部分时间组成：

● 查找时间(seek time) Ts: 完成上述步骤(1)所需要的时间。这部分时间代价最高，最大可达到0.1s左右。

● 等待时间(latency time) Tl: 完成上述步骤(3)所需要的时间。由于盘片绕主轴旋转速度很快，一般为7200转/分(电脑硬盘的性能指标之一, 家用的普通硬盘的转速一般有5400rpm(笔记本)、7200rpm几种)。因此一般旋转一圈大约0.0083s。

● 传输时间(transmission time) Tt: 数据通过系统总线传送到内存的时间，一般传输一个字节(byte)大概0.02us=2*10^(-8)s

磁盘读取数据是以盘块(block)为基本单位的。位于同一盘块中的所有数据都能被一次性全部读取出来。而磁盘IO代价主要花费在查找时间Ts上。因此我们应该尽量将相关信息存放在同一盘块，同一磁道中。或者至少放在同一柱面或相邻柱面上，以求在读/写信息时尽量减少磁头来回移动的次数，避免过多的查找时间Ts。

所以，在大规模数据存储方面，大量数据存储在外存磁盘中，而在外存磁盘中读取/写入块(block)中某数据时，首先需要定位到磁盘中的某块，如何有效地查找磁盘中的数据，需要一种合理高效的外存数据结构，就是下面所要重点阐述的B-tree结构，以及相关的变种结构：B±tree结构和B*-tree结构。

上面取自下面文章:https://blog.csdn.net/v_JULY_v/article/details/6530142/

未完待续…

标签：name,column,索引,磁道,查找,原理,table
来源： https://blog.csdn.net/weixin_44195647/article/details/95993432

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9