网站后台构建,移动互联网应用程序清理整合情况,大气金融网站,网站广东海外建设集团有限公司转载自 聚簇索引和聚簇索引介绍
一. 什么是索引和建立索引的好处 什么是索引 在数据库中#xff0c;索引的含义与日常意义上的“索引”一词并无多大区别#xff0c;与书中的索引一样#xff0c;数据库中的索引使您可以快速找到表中的特定信息。索引包含从表中一个或多个…转载自 聚簇索引和聚簇索引介绍
一. 什么是索引和建立索引的好处 什么是索引 在数据库中索引的含义与日常意义上的“索引”一词并无多大区别与书中的索引一样数据库中的索引使您可以快速找到表中的特定信息。索引包含从表中一个或多个列生成的键以及映射到指定数据的存储位置的指针也就是说索引由键和 指针组成。它是用于提高数据库表数据访问速度的数据库对象。 建立索引的好处 索引可以避免全表扫描。多数查询可以仅扫描少量索引页及数据页而不是遍历所有数据页。对于非聚集索引有些查询甚至可以不访问数据页。如字典的目录就可以查到所有拼音第一字母为z 的所有字。 聚集索引可以避免数据插入操作集中于表的最后一个数据页。 一些情况下索引还可用于避免排序操作。
二基础知识
2.1 页 数据库文件存储是已页为存储单元的一个页是8K8192Byte一个页就可以存放N行数据。我们常用的页类型就是数据页和索引页。一个页中除了存放基本数据之外还需要存放一些其他的数据如页的信息、偏移量等如下图所示。 虽然SQLServer是以页为单位存储数据但是其分配空间是以一个盘区为单位的8个页64K这样做的目的主要是为提高I/O的性能。 一条索引记录中包含的基本信息包括键值 逻辑指针。 SQLServer中使用页为存储单元的那么在建立索引时其索引节点就是页了然后树的键值就是存放到这些页节点中的。就是说表中的数据行就是存放到页上的一个表有多个页构成这些页以树的结构存放。
2.2 B树 B树即二叉搜索树所有非叶子节点最低拥有两个子节点基本信息如下图所示。都是小的元素放左边大的元素放右边。比如说要查找某个元素其时间复杂度就对应该元素的深度如要查询9从根节点开始只要比较三次就找到他了其查询效率是非常高的。 子节点最多两个子节点指针分别指向Left和Right
阶数节点子节点个数2
深度就是层数各个叶子节点不一定一样如节点21的深度为440的深度为3 2.2 B-树
B-树是一中多路搜索树其阶数可以自定义2)是很多数据及文件系统应用的一种索引结构基本特征如
1) 阶数M2即孩子数量大于2个
2) 每个结点存放至少M/2-1取上整和至多M-1个关键字至少2个关键字
3) 非叶子结点上的多个关键字是按照顺序排列的K[1], K[2], …, K[M-1]且K[i] K[i1]
4) 所有叶子节点都位于同一层因此叶子节点的深度都是一样的
5) 非叶子结点的关键字个数指向儿子的指针个数-1
6) 非叶子结点的指针P[1], P[2], …, P[M]其中P[1]指向关键字小于K[1]的子树P[M]指向关键字大于K[M-1]的子树其它P[i]指向关键字属于(K[i-1], K[i])的子树
如下图是一个三阶的B-树节点[18]有两个指针分别指向其2个子节点。 这时如果要插入一个值17其处理步骤
1) 从根节点进入17小于22进入左边的节点[18];
2) [18]不是叶子节点继续向下搜索17小于18进入其左边的子节点[12,16];
3) [12,16]为叶子节点插入到该节点
4) 节点[12,16,17]元素大于2了3阶树的节点关键字数量应3/2-1,3-1因此该节点需要分裂分裂中间的元素16到父节点18中去
5) 12,17分裂成了两个子节点了
分裂后的效果如下图 以上图片效果来自一个外国大学里面的的在线版B-树的测试网站http://www.cs.usfca.edu/~galles/visualization/BTree.html 大家可以去这个网站测试效果很直观外国人就是牛。本人以前用C#GDI实现过类似的效果结果还是可以的就是当树太大的时候布局不好处理了。 2.3 B树
B树是B-树的变体也是一种多路搜索树一棵m 阶的B树和m 阶的B-树的差异在于
l 非叶子节点的子节点和其关键字相同即节点有三个元素关键字他就肯定有三个子节点
l 非叶子节点的子节点P[i]指向关键字值属于[K[i], K[i1])的子树B-树是开区间
l 所有叶子节点增加一个链指针
l 所有关键字的数据都在叶子节点中 如下图所示图片来自网络http://www.cnblogs.com/chjw8016/archive/2011/03/08/1976891.html。 三什么是聚集索引
3.1 聚集索引定义
聚集索引是根据数据行的键值在表中排序存储数据行。索引定义中包含聚集索引列。每个表只能有一个聚集索引。只有当表包含聚集索引时表中的数据行才按排序顺序存储。如果表具有聚集索引则该表称为聚集表。集索引决定了表数据的存储顺序,如果表没有聚集索引则其数据行存储在一个称为堆的无序结构中。 3.2 聚集索引的结构
对于某个聚集索引索引指向该聚集索引某个特定分区数据页的顶部。SQL Server 将在索引中向下移动以查找与某个聚集索引键对应的行。原因是聚集索引的索引顺序就是数据排列顺序。 聚集索引与查询操作 如上图在建立聚集索引后当需要在根据此字段查找特定的记录时数据库系统会根据特定的系统表查找的此索引的根然后根据指针查找下一个直到找到。数据查询时首先是对索引表查询如果此时索引表在缓存中可以找到则可以避免一次IO操作。在索引表中找到所需数据索引值后就可以确定目标数据行所在的数据位置从而读取数据。 聚集索引与插入和删除操作 插入数据时首先根据索引找到对应的数据页然后通过挪动已有的记录为新数据腾出空间最后插入数据。删除数据时将导致其下方的数据行向上移动以填充删除记录造成的空白。对于数据的删除操作可能导致索引页中仅有一条记录这时该记录可能会被移至邻近的索引页中原索引页将被回收即所谓的“索引合并”。同样插入数据页会更改索引。每一次索引更改都是一次IO操作。聚集索引的建立会降低数据插入和删除的效率。
四. 什么是非聚集索引
4.1 非聚集索引定义
非聚集索引并不是在物理上排列数据,即索引中的逻辑顺序并不等同于表中行的物理顺序,索引是指向表中行的位置的指针,这些指针本身是有序的,通过这些指针可以在表中快速定位数据。 4.2 非聚集索引的结构
由于非聚集索引数据存储时无序的所以在非聚集索引中指针包含数据行在数据页中的偏移量。即指针由 数据页 数据行偏移量 组成。 非聚集索引的查询 如上图在建立非聚集索引后当需要在根据此字段查找特定的记录时数据库系统会根据特定的系统表查找的此索引的根然后根据指针查找直到找到。数据查询时首先是对索引表查询如果此时索引表在缓存中可以找到则可以避免一次IO操作。在索引表中找到所需数据索引值后就可以确定目标数据行所在的数据位置从而读取数据。 非聚集索引的插入删除 如果一张表包含一个非聚集索引但没有聚集索引则新的数据将被插入到最末一个数据页中然后非聚集索引将被更新。如果也包含聚集索引该聚集索引将被用于查找新行将要处于什么位置随后聚集索引、以及非聚集索引将被更新。如果在删除命令的Where子句中包含的列上建有非聚集索引那么该非聚集索引将被用于查找数据行的位置数据删除之后位于索引叶子上的对应记录也将被删除。如果该表上有其它非聚集索引则它们叶子结点上的相应数据也要删除 五。聚集索引和非聚集的区别
聚集索引和非聚集索引的根本区别是数据记录的排列顺序和索引的排列顺序是否一致聚集索引表记录的排列顺序与索引的排列顺序一致优点是查询速度快因为一旦具有第一个索引值的纪录被找到具有连续索引值的记录也一定物理的紧跟其后从而缩小了搜索范围对于返回某一范围的数据效果最好。
聚集索引的缺点是对表进行修改速度较慢这是为了保持表中的记录的物理顺序与索引的顺序一致而把记录插入到数据页的相应位置必须在数据页中进行数据重排降低了执行速度。 非聚集索引指定了表中记录的逻辑顺序数据记录的物理顺序和索引的顺序不一致聚集索引和非聚集索引都采用了B树的结构但非聚集索引的叶子层顺序并不与实际的数据页相同而采用指向表中的记录在数据页中位置的方式。非聚集索引比聚集索引层次多添加记录不会引起数据顺序的重组。在有大量不同数据的列上建立非聚集索引可以提高数据的查询和修改速度。
在对聚集索引列查询时聚集索引的速度要比非聚集索引速度快。
在对聚集索引列排序时聚集索引的速度要比非聚集索引速度快。但是如果数据量比较大时如10万以上则二者的速度差别不明显。 聚集索引和非聚集的建立原则
在创建索引时要做到三个适当即在适当的表上、适当的列上创建适当数量的索引。虽然这可以通过一句话来概括优化的索引的基本准则但是要做到这一点的话需要做出很大的努力。具体的来说要做到这个三个适当有如下几个要求。
5.1 根据表的大小来创建索引。
虽然给表创建索引可以提高查询的效率。但是需要注意的是索引也需要一定的开销的。为此并不是说给所有的表都创建索引那么就可以提高数据库的性能。这个认识是错误的。给所有的表都创建了索引那么其反而会给数据库的性能造成负面的影响。因为此时滥用索引的开销可能已经远远大于由此带来的性能方面的收益。所以数据库管理员首先需要做到为合适的表来建立索引而不是为所有的表建立索引。
一般来说不需要为比较小的表创建索引。因为即使建立了索引其性能也不会得到很大的改善。相反索引建立的开销如维护成本等等要比这个要大。也就是说付出的要比得到的多显然违反常理。
另外就是对于超大的表也不一定要建立索引。有些表虽然比较大记录数量非常的多。但是此时为这个表建立索引并一定的合适。对于一些超大的表建立索引有时候往往不能够达到预计的效果。而且在大表上建立索引其索引的开销要比普通的表大的多。那么到底是否给大表建立索引呢主要是看两个方面的内容。首先是需要关注一下在这张大表中经常需要查询的记录数量。一般来说如果经常需要查询的数据不超过10%到15%的话那就没有必要为其建立索引的必要。因为此时建立索引的开销可能要比性能的改善大的多。如果数据库管理员需要得出一个比较精确的结论那么就需要进行测试分析。
5.2 根据列的特征来创建索引
列的特点不同索引创建的效果也不同。需要了解为哪些列创建索引可以起到事半功倍的效果。同时也需要了解为哪些列创建索引反而起到的是事倍功半的效果。
索引设置的是否恰当不仅跟数据库设计架构有关而且还跟企业的经济业务相关。虽然一开始已经做了索引的优化工作。但是随着后来经济数据的增加这个索引的效果会越来越打折扣。所以需要隔一段时间对数据库的索引进行优化。该去掉的去掉该调整的调整以提高数据库的性能。 5.3 在一个表上创建多少索引合适
通常来说表的索引越多其查询的速度也就越快。但是表的更新速度则会降低。这主要是因为表的更新同时也是索引的更新。到底在表中创建多少索引合适就需要在这个更新速度与查询速度之间取得一个均衡点。如对于一些数据仓库或者决策型数据库系统其主要用来进行查询。相关的记录往往是在数据库初始化的时候导入。此时设置的索引多一点可以提高数据库的查询性能。同时因为记录不怎么更新所以索引比较多的情况下也不会影响到更新的速度。相反如果那些表中经常需要更新记录如一些事务型的应用系统数据更新操作是家常便饭的事情。此时如果在一张表中建立过多的索引则会影响到更新的速度。由于更新操作比较频繁所以对其的负面影响要比查询效率提升要大的多。此时就需要限制索引的数量只在一些必要的字段上建立索引。
总之在适当的表、适当的列上建立适当的索引。具体的索引优化内容还是需要在日常工作中继续体会与总结。
下面的表总结了何时使用聚集索引或非聚集索引 动作描述 使用聚集索引 使用非聚集索引 列经常被分组排序 应 应 返回某范围内的数据 应 不应 一个或极少不同值 不应 不应 小数目的不同值 应 不应 大数目的不同值 不应 应 频繁更新的列 不应 应 外键列 应 应 主键列 应 应 频繁修改索引列 不应 应 注具体参考数据库\聚簇索引和非聚簇索引.ppt