SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解-巨人网络通讯

主页 > 知识库 > SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

为什么要写统计信息

最近看到园子里有人写统计信息，楼主也来凑热闹。

话说经常做数据库的，尤其是做开发的或者优化的，统计信息造成的性能问题应该说是司空见惯。

当然解决办法也并非一成不变，“一招鲜吃遍天”的做法已经行不通了（题外话：整个时代不都是这样子吗）

当然，还是那句话，既然写了就不能太俗套，写点不一样的，本文通过分析一个类似实际案例来解读统计信息的更新的相关问题。

对于实际问题，不但要解决问题，更重要的是要从理论上深入分析，才能更好地驾驭数据库。

何时更新统计信息

（1）查询执行缓慢，或者查询语句突然执行缓慢。这种场景很可能是由于统计信息没有及时更新而遭遇了参数嗅探的问题。

（2）当大量数据更新（INSERT/DELETE/UPDATE）到升序或者降序的列时，这种情况下，统计信息直方图可能没有及时更新。

（3）建议在除索引维护（当你重建、整理碎片或者重组索引时，数据分布不会改变）外的维护工作之后更新统计信息。

（4）数据库的数据更改频繁，建议最低限度每天更新一次统计信息。数据仓库可以适当降低更新统计信息的频率。

（5）当执行计划出现统计信息缺失警告时，需要手动建立统计信息

统计信息基础

首先说一个老掉牙的话题，统计信息的更新阈值：

1，表格从没有数据变成有大于等于1条数据。

2，对于数据量小于500行的表格，当统计信息的第一个字段数据累计变化量大于500以后。

3，对于数据量大于500行的表格，当统计信息的第一个字段数据累计变化量大于500 + (20%×表格数据总量)以后。

做个查询，触发统计信息更新，rowmodct归0（继续累积直到下一个触发的阈值，触发更新之后再次归0）

关于统计信息“过期”的问题

下面开始正文，网络上很多关于统计信息的文章，提到统计信息，很多都是统计信息过期的问题，然后跟新之后怎么怎么样

尤其在触发统计信息自动更新阈值的第三个区间：也就是说数据累计变化超过20%之后才能自动触发统计信息的更新

这一点对于大表来说通常影响是比较大的，比如1000W的表，变化超过20%也+500也就是200W+500行之后才触发统计信息更新，这个阈值区间的自动触发阈值，绝大多数情况是不能接受的，于是对于统计信息的诊断就变成了是否“过期”

判断统计信息是否过期，然后通过更新统计信息来促使执行计划更加准确地预估行数，这一点本无可厚非

但是，问题也就出在这里了：那么怎么更新统计信息？一成不变的做法是否可行，这才是问题的重点。

当然肯定有人说，我就是按照默认方式更新的，更新完之后SQL也变得更加优化了什么的

通过update statistics TableName StatisticName更新某一个索引的统计信息，

或者update statistics TableName更新全表的统计信息

这种情况下往往是小表上可以这么做，当然对于大表或者小表没有一个标准值，一切要结合事实来说明问题

下面开始本文的主题：

抽象并简化出业务中的一个实际案例，创建这么一张表，类似于订单和订单明细表（主子表），

这里你可以想象成是一个订单表的子表，Id字段是唯一的，有一个ParentID字段，是非唯一的，

ParentID类似于主表的Id，测试数据按照一个主表Id对应50条子表明细的规律插入数据

CREATE TABLE [dbo].[TestStaitisticsSample](
 [Id] [int] IDENTITY(1,1) NOT NULL,
 [ParentId] [int] NULL,
 [OtherColumn] [varchar](50) NULL
) 


declare @i int=0
while(@i100000000)
begin

 insert into [TestStaitisticsSample](ParentId,OtherColumn)values(@i,NEWID())
 /*
 中间插入50条，也即一个主表Id对应50条子表明细
 */
 insert into [TestStaitisticsSample](ParentId,OtherColumn)values(@i,NEWID())

 set @i=@i+1
end
go

create nonclustered index [idx_ParentId] ON [dbo].[TestStaitisticsSample]
(
 [ParentId] 
)
go

本来打算插入1亿条的，中间我让他执行我睡午觉去了，醒来之后发现SSMS挂掉了，挂掉了算了，数据也接近1亿了，能说明问题就够了

现在数据分布的非常明确，就是一个ParentId有50条数据，这一点首先要澄清。

测试数据写入，以及所创建完成之后来更新idx_ParentId 索引上的统计信息，就按照默认的方式来更新，然后来观察统计信息

默认方式更新统计信息（未指定采样密度）

表里现在是8000W多一点记录，默认更新统计信息时取样行数是462239行，那么这个统计信息靠谱吗？

上面说了，造数据的时候，我一个ParentId对应的是50行记录，这一点非常明确，他这里统计出来的多少？

1，对于取样的RANG_HI_Key值，比如51632，预估了862.212行

2，对于AVG_RANG_ROW，比如45189到51632之间的每个Id的数据对应的数据行，预估是6682.490行

之前造数据的时候每个Id都是50行，这里的预估靠谱吗，这个误差是无法接受的，

很多时候，对于大表，采用默认（未指定采样密度）的情况下，默认的采样密度并不足以准确地描述数据分布情况

指定一个采样密度的方式更新统计信息（20%采样）

这一次用20%的采样密度，可以看到取样的行数是15898626行

1，对于取样的RANG_HI_Key值，比如216305，他给我预估了24.9295行

2，对于AVG_RANG_ROW，比如186302到216305之间的每个Id的行数，预估是197.4439行

观察比如上面默认的取样密度，这一次不管是RANG_HI_Key还是AVG_RANG_ROW得预估，都有不一个非常高的下降，开始趋于接近于真实的数据分布（每个Id有50行数据）

整体上看，但是这个误差还是比较大的，如果继续提高采样密度，看看有什么变化？

指定一个采样密度的方式更新统计信息（70%采样）　

这一次用70%的采样密度，可以看到取样行数是55962290行

1，对于取样的RANG_HI_Key值，比如1978668，预估了71.15906行

2，对于AVG_RANG_ROW，比如1124024到1978668之间的每个Id，预估为61.89334行

可以说，对于绝大多数值得预估（AVG_RANG_ROW），都愈发接近于真实值

指定一个采样密度的方式更新统计信息（100%采样）

可以看到，取样行数等于总行数，也就是所谓的全部（100%）取样

看一下预估结果：

比如Id=3981622，预估是50行，3981622与4131988之间的Id的行数，预估为49.99874行，基本上等于真实数据分布

这个就不做过多解释了，基本上跟真实值是一样的，只是AVG_RANG_ROW有一点非常非常小的误差。

取样密度高低与统计信息准确性的关系

至于为什么默认取样密度和较低取样密度情况下，误差很大的情况我简单解释一下，也非常容易理解，因为“子表”中存储主表ID的ParentId值允许重复，在存在重复值的情况下，如果采样密度不够，极有可能造成“以偏概全”的情况

比如对10W行数据取样1W行，原本10W行数剧中有2000个不重复的ParentId值，如果是10%的取样，在1W行取样数据中，因为密度不够大，只找到了20个不重复的ParentId值，那么就会认为每一行ParentId对应500行数据，这根实际的分布的每个ParentId有一个非常大的误差范围

如果提高采样密度，那么这个误差就会越来越小。　　

更新统计信息的时候，高比例的取样是否可取（可行）　

因此在观察统计信息是否过期，决定更新统计信息的时候，一定要注意取样的密度，就是说表中有多少行数据，统计信息更新的时候取了多少采样行，密度有多高。

当然，肯定有人质疑，那你说采样密度越高，也就是取样行数越高越准确，那么我就100%取样。

这样行不行？

还要分情况看，对于几百万或者十几万的小表来说，当然没有问题，这也是为什么数据库越小，表数据越少越容易掩盖问题的原因。

对于大表，上亿的，甚至是十几亿的，你按照100%采样试一试？　

举个实际例子：

我这里对一个稍微大一点的表做个全表统计信息的更新，测试环境，服务器没负载，存储是比普通的机械硬盘要强很多的SAN存储

采用full scan，也就是100%采样的更新操作，看一下，仅仅这一样表的update statistic操作就花费了51分钟

试想一下，对一个数百GB甚至数TB的库来说，你敢这么搞一下。

扯一句，这个中秋节过的，折腾了大半天，话说做测试过程中电脑有开始有点卡，

做完测试之后停掉SQLServer服务，瞬间内存释放了7个G，可见这些个操作还是比较耗内存的

总结：

本文通过对于某些场景下，在对较大的表的索引统计信息更新时，采样密度的分析，阐述了不同采样密度下，对统计信息预估的准确性的影响。

当然对于小表，一些都好说。

随着单表数据量的增加，统计信息的更新策略也要做相应的调整，

不光要看统计信息是否“过期”，更重要的是注意统计信息更新时究竟取样了全表的多少行数据做统计。

对于大表，采用FULL SCAN或者100%采样往往是不可行的，这时候就需要做出权衡，做到既能准确地预估，又能够以合理的代价执行。

好了，以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持

您可能感兴趣的文章:

SQLSERVER收集语句运行的统计信息并进行分析
SQL Server自动更新统计信息的基本算法
sqlserver 统计sql语句大全收藏
SQLSERVER语句的执行时间显示的统计结果是什么意思
浅谈SQL Server中统计对于查询的影响分析
SQLServer2005 中的几个统计技巧

标签：威海宿州七台河防疫战设益阳来宾铜仁天水

巨人网络通讯声明：本文标题《SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解》，本文关键词 SQL,Server,统计,信息,更新,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解》相关的同类信息！

SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

为什么要写统计信息最近看到园子里有人写统计信息，楼主也来凑热闹。话说经常做数据库的，尤其是做开发的或者优化的，统计信息造成的性能问题应该说是司空见惯。当然解决办...

10-18

福州营销电销机器人（电销机器人app）

今天给各位分享福州营销电销机器人的知识，其中也会对电销机器人app进行解释，如果能碰巧解决你现在面临的问题，别忘了...

05-16

400电话号码申请400开头的号码在哪里申请

400电话号码申请400开头的号码在哪里申请以下内容由巨人小编整理发布。 400电话申请的具体操作如下:工具:Windows7触慢置种燃...

05-16

电话机器人收藏品话术（电话机器人话术模板）

今天给各位分享电话机器人收藏品话术的知识，其中也会对电话机器人话术模板进行解释，如果能碰巧解决你现在面临的问题...

11-06

外呼系统失败的简单介绍

本文目录一览： 1、忘掉暗码外呼失利什么意思2、外呼付出结算失利啥意思3、用呼叫体系拨打电话，等候时长50秒显现呼叫失...

04-23

短信已死？容联赋予验证码创新生命力

由于移动手机的普及以及微信、QQ等聊天工具的兴起，在国内消费者侧的短信使用已经日渐式微。而在企业端，唯一撑起短信...

10-19

拉萨电商外呼系统收费（拉萨电商平台怎么样）

今天给各位分享拉萨电商外呼系统收费的知识，其中也会对拉萨电商平台怎么样进行解释，如果能碰巧解决你现在面临的问题...

11-06

RightNow科技公司股东同意被Oracle收购

CTI论坛(ctiforum)12月29日消息（编译/刘煜）: 上周RightNow公司股东以压倒性多数批准了这个交易，Oracle公司正在进一步进行收购...

10-19

办理一个400的号码需要多少钱400电话办理多少钱?选择服务商应该选哪家?

400电话是一种主要的共享支付业务，即400电话费由拨打400电话的企业和用户共享，拨打方只支付当地电话费。 400电话功能强...

01-12

电销卡不抗封号

什么是电销卡？电话销售卡是专门为电话销售业务而设计的一种手机卡。也可以说电话销售卡是专门用来打电话销售的手...

12-04

电销机器人视频讲解（智能语音电销机器人怎么操作）

本篇文章给大家谈谈电销机器人视频讲解，以及智能语音电销机器人怎么操作对应的知识点，希望对各位有所帮助，不要忘了...

05-16

如何查400电话是哪家公司的靠谱吗？|申请400电话网站

各种各样的400电话吸引了各行各业的企业来处理它们。由于您可以在服务提供商或代理存款前申请开通，方便快捷，成为企...

本文目录一览： 1、市面上外呼体系挺多的，外呼体系多少钱一个？2、外呼体系多少钱一个月？3、外呼体系什么价格？市面...

11-28

杭州人工外呼系统运营商（杭州人工外呼系统运营商有哪些）

今天给各位分享杭州人工外呼系统运营商的知识，其中也会对杭州人工外呼系统运营商有哪些进行解释，如果能碰巧解决你现...

11-06

400是免费的电话吗怎么收费标准全国免费400电话怎么申请

【400电话是免费的还是收费的】很多人对400电话还是不太了解，尤其是成本。让我们简单介绍一下400电话的成本。 400电话处...

01-13

盐城呼叫中心价格电销系统无缝切换沟通方式

汇港通科技团队组建于2018年，是一家专注于中小企业精准营销和企业管理服务解决方案的提供商。汇港通自主研发基于大数...

10-31

数据库更新Sqlserver脚本总结

表复制： 1. INSERT INTO SELECT语句语句形式为：Insert into Table2(field1,field2,...) select value1,value2,... from Table1 要求目标表Table2必须存...

10-18

电销机器人如何赚钱的方法（如何销售机器人）

本篇文章给大家谈谈电销机器人如何赚钱的方法，以及如何销售机器人对应的知识点，希望对各位有所帮助，不要忘了收藏本...

11-07

外呼防封号系统要收坐席费？

针对于手机卡容易被封的问题，外呼防封系统绝对是最有效的解决办法之一。电销企业应该早早就使用起来了，无奈于还有一...

12-03

西安crm外呼系统多少钱（西安crm外呼系统多少钱一台）

今天给各位分享西安crm外呼系统多少钱的知识，其中也会对西安crm外呼系统多少钱一台进行解释，如果能碰巧解决你现在面临...

05-17

怎么开通外呼系统（外呼助手的外呼方式）

本文目录一览： 1、电脑上怎样运用外呼琐细？ 2、外呼琐细是怎样用的？ 3、团体能够料理外呼琐细吗？ 4、讨教电脑怎样安...

11-25

合生元携手讯鸟打造多元化营销与服务平台

近日，合生元公司与北京讯鸟软件有限公司正式签署合作协议，借力讯鸟云计算呼叫中心解决方案，构建一个全国范围内的分...

10-22

苏州外呼系统优势（苏州外呼系统优势企业）

本文目录一览： 1、外呼琐细跟电销卡比起来，有哪些优势和优势？ 2、外呼琐细有哪些短处？ 3、外呼琐细相比起传统通信方...

11-25

合肥联通电销系统需要多少钱-请看！

合肥联通电销系统需要多少钱服务等传统的电销行业，问题非常大。有不少企业为了解决此问题，就引进智能电销机器人，虽...

01-16

全自动扫地机器人电销

实际上，大多数业绩不佳的公司并不是由于电话推销员的能力不足，而是没有使用正确的方法和工具。 **让我们回顾一下电话...

10-30

兰州智能电话机器人效果（兰州机器人公司有哪些）

本文目录一览： 1、电话机器人作用好不好？2、电话机器人运用起来怎么？3、用智能AI电话机器人作用好吗？电话机器人作用...

11-28

恩施电销外呼系统（电销外呼系统话术）

本篇文章给大家谈谈恩施电销外呼系统，以及电销外呼系统话术对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

08-27

南京移动电销系统怎么办理,电销系统-品质保障

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务难以启动； 2）销售人员号码被标注，...

12-17

南京crm外呼系统中心（南京呼叫中心客服招聘）

本篇文章给大家谈谈南京crm外呼系统中心，以及南京呼叫中心客服招聘对应的知识点，希望对各位有所帮助，不要忘了收藏本...

08-28

电子销售使用介绍

7、手动应答/访问【电子销售使用介绍】时代在发展，科技在进步，无论你的企业在行业中处于什么样的地位，无论你的企业...

10-30

济南电销呼叫系统不封号

济南电销呼叫系统不封号 ,办理济南电销呼叫系统不封号,济南电销呼叫系统不封号哪里有针对电销的海量外呼场景及数据管...

12-04

电子名片是啥样的

名片其实是人与人之间认识、展示个人身份的一个工具。而电子名片，是把个人身份和信息电子化，更整合企业对外宣传信息...

10-25

上海移动管理软件加盟-解读

上海移动管理软件加盟因此，对于从事电销业的企业，或对某些从事电话销售的企业来说，智能电销机器人是一个好的选择。...

01-15

北京打电话

对于企业来说，电销所需要的高额成本也是痛点。比如说企业办公场所提供好了，社保福利也有了保证，员工培训也做到位了...

10-25

400电话如何帮助我们提升客服服务质量

现在是科技发达的时代，我们每个人的周围都有大大小小的通讯工具，尤其是电话的普及让我们身边的消息可以互通，有的公...

05-16

办理400电话号(400电话怎么申请流程)

办理400电话号(400电话怎么申请流程) 400电话怎么申请流程办理申请公司400电话的步骤如下： 1. 登陆电信运营商官网：在官方...

08-14

山西知识产权AI语音机器人多少一台-服务周到!

山西知识产权AI语音机器人多少一台节省了人工劳动力。智能交互，电销机器人可准确理解识别被叫方语意，原声定向回复应...

05-17

智能外呼系统意义（智能外呼的优势）

今日给各位共享智能外呼体系含义的常识，其间也会对智能外呼的优势进行解说，假如能可巧处理你现在面对的问题，别忘了...

11-06

接400电话要钱吗?收费标准是什么南京400电话资费标准

400电话实际上是一种通信工具，可以通过呼叫来分享和支付。这是一个可以给企业带来很多好处的电话。 400电话的收费标准...

01-12

腾讯导航上怎么定自己所站的位置？附近加气站位置导航

我想问问如何将轮播的位置定位在自己所需要的位置上？试试这个图片切换有12345数字一起切换鼠标点一下数字会变换到另...

11-26

“一呼百应”服务流引擎打造新一代智慧客服平台

近日，融合后的中国联通在厦门召开全国联通新国信2009年工作会议。享誉呼叫中心行业盛名的HOLLYCRM ( 合力金桥软件) 公司作...

10-22

厦门人工外呼系统平台（厦门航空客服电话人工

本文目录一览：1、厦门电销外呼体系哪家好？2、人工外呼体系渠道哪个好用？3、人工外呼体系渠道哪个好？厦门电销外呼体...

11-29

打造沟通零距离，平安金服网络客服新模式

平安客服现在越来越方便了，只要手机添加客服的企微联系人，就可以直接查询还款情况了。平安银行信用卡客户陈女士说道...

10-19

防封电销卡不封号-电销卡套餐

电销卡在线网（运营主体：知云通信）主营企业通信业务，重点销售电销卡、电销防封卡、不封号电话、外呼系统、电销专用...

12-04

重庆将成为中国在岸外包“引擎”城市

实体经济受到冲击、IT支出减少、软件订单压缩……金融危机带来的一系列问题让软件行业不得不考虑应对策略。与此同时，...

10-22

广州电话销售防封软件多少钱

电销软件提供稳定、低价的外呼线路系统，高效率拓客外呼，高频防封，一键拨号，代理全国多家运营商，超低资费。只需...

11-18

广州联通外呼电话线路价格-意味深长!

广州联通外呼电话线路价格现在有不少好的电销系统都可以选购了，这种系统在使用以后毫无疑问是可以提供的功能支持的，...

01-15

长沙不封号的回拨电销系统费用,电销系统源码-哪家专业

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务难以启动； 2）销售人员号码被标注，...

12-17

ubuntu16.04怎么远程远程登录linux系统?

玩Ubuntu也有点时间了，本来想试着编译个openwrt路由器固件玩玩的，但是要先搭建环境，一堆安装编译需要的组件我总不能一...

10-20

河池市电话机器人专卖店（河池机电市场）

本文目录一览：1、电销机器人哪家好?2、在广西河池地区大化县开一家福利彩票要什么办3、如何选择靠谱的电话机器人品牌...

07-14

SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

10-18

本页收集关于SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解的相关信息资讯供网民参考！

推荐文章

上一篇：SQL Server查找表名或列名中包含空格的表和列实例代码

下一篇：SQL Server 2008 清空删除日志文件(瞬间缩小日志到几M)

一起分享吧