关于积累和(CUSUM)检验的改进_检验统计量论文

关于累积和(CUSUM)检验的改进,本文主要内容关键词为:CUSUM论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

考虑由一系列独立产品质量观测值x[,1],x[,2],…组成的过程,在开始时候,过程处于受控状态,即产品质量满足设计要求,然而,如果该过程在某个未知时间点v发生变化,则此后的产品质量将不满足设计的要求,这样的状态称为失控。我们的问题是当过程中有一个变化发生后要尽快地把这种变化给检测出来。

对该问题的精确的统计描述可如下给出:对某个正整数v,观测值x[,1],x[,2],…,x[,v]为独立同分布变量,其共同分布是F[,0](x),而观测值x[,v+1],x[,v+2],…则是来自F[,1](x)的独立同分布变量,F[,0](x)≠F[,1](x)。显然,若v=∞,则说明该过程中没有变点,亦即整个过程处于受控状态,所有的观测值均为独立同分布变量。在些场合,任何一种检测方法都应该显示过程处于受控状态,从而该过程能无限地进行下去,即使不能无限进行下去,至少也能使该过程保持很长时间。另一方面,若过程中有一变点发生(v<∞),一个好的检测方法应该能尽快地发现,并让过程停止下来,进行调查。

我们讨论这样一种比较简单的变点检测问题:所有观测值都服从正态分布且方差相同。这表示对某个v,x[,i]~N(μ[,0],σ[2][,0]),i=1,2,…,v,而x[,i]~N(μ[,1],σ[2][,0]),i=v+1,v+2,…,其中μ[,1]≠μ[,0]。我们的目的是当过程中有一变点发生后尽快地把它检测出来。

综上所述,我们实际上是要考虑这样一个检验问题:设有一系列随机变量X[,1],X[,2],…,考虑下述检验问题:

关于该检验问题已有很多讨论,除去众所周知的Shewhart控制图[3]及其各种推广外(已有多人指出,当μ[,1]与μ[,0]相差较小时,Shewhart控制图法的效率不高),主要有两种检测方法。其一是累积和法(CUSUM),由Page[1]基于似然比提出,CUSUM检测法已被证明在检测小的漂移时很有效;另一常用的方法是指数加权移动平均法(EWMA),由Roberts[2]提出。许多人对CUSUM和EWMA进行了比较,总的说来,最优的CUSUM与最优的EWMA在检测小的漂移方面难分优劣,而CUSUM是由似然比导出,且其ARL的计算要比EWMA简便,因此,CUSUM在与EWMA的比较中更有竞争力,应用范围更广。

本文主要研究累积和控制图。离散型分布下的累积和控制图称为计数型累积和图,我们国家在1985年已经颁布了关于计数型累积和图的国家标准。连续型分布下的累积和控制图称为计量型累积和图,本文研究计量型累积和图。我们首先介绍正态分布均值漂移问题和累积和(CUSUM)检验,指出其不足之处,,并提出几种针对性的改进办法,然后把我们提出的新的累积和控制图与常用的CUSUM进行比较,结果显示,我们提出的累积和统计量确比常用CUSUM有改进。

二、均值漂移问题以及累积和(CUSUM)检验

这就是最简单的CUSUM统计量。若事先选定一个门限值h>0,如果Z[,i]≤h,i=1,2,…,n,说明在到时刻n为止的过程中没有证据显示过程进入失控状态,检测继续,若某个Z[,n]>h(Z[,i]≤h,i=1,2,…,n-1),则报警,认为过程在时刻n以前已经有一个向上的漂移发生,其中h的选择将在后面作进一步讨论。

我们也可这样来理解CUSUM:若在前面n-1个观测值组成的过程中未能检测出有变点,即Z[,i]≤h,i=1,2,…,n-1,则在时刻n,采用如下准则来判断过程均值是否有向上漂移,若

实用中δ一般是未知的,因此(8)或(10)式的CUSUM统计量实施起来有困难,但我们可用一个不定参数k代替δ/2,从而得到一般CUSUM统计量

Z[,n]=max{0,Z(,n-1)+x[,n]-k},n=1,2,… (11)

这样,CUSUM由二个参数(k,h)所决定,其中k称为信念值(Reference Value),h称为门限值(Decision Boundary)。下一节我们将计论(k,h)的选择问题。

类似地,若要检测一个向下漂移,我们可简单地考虑-x。若原始过程x[,1],x[,2],…在某处有一向下漂移-δ(δ>0),则由原始过程中的观测值的相反数组成的过程-x[,1],-x[,2],…有一个向上漂移δ,类似地定义

其中X与X[,1],X[,2],…同分布(本节中为标准正态分布),f[,x](·)表示X的密度函数。显然,L[,H](0)就是对向上漂移进行检测的平均运行长度ARL[,0](Z[,0]=0)。

对向下漂移的检测有类似的结论:以L[,L](u)表示D[,n]从D[,0]=u开始进行检测的平均运行长度,则类似地有如下积分方程:

四、CUSUM的不足之处

我们知道,CUSUM检测过程是由一系列检验构成的,每一次检验可以看成一个随机游动,这个随机游动有两个吸收壁,分别表示“该部分检验过程中没有漂移发生”和拒绝原假设认为“该部分过程中有漂移发生”。CUSUM检测进行到出现拒绝原假设而停止,此时发出“过程中可能有漂移发生”的报警,否则,CUSUM将一直进行下去。下面我们对CUSUM检测过程中的一次检验进行研究。

不失一般性,我们讨论过程刚开始时的检验。我们仍考虑最简单的情况:过程开始时处于受控状态,观测值x[,1],x[,2],…是来自N(0,1)的独立同分布变量,在某个未知时刻v,过程均值发生了一个漂移,即x[,v],x[,v+1],…的共同分布为N(δ,1)(此处假定δ>0)。考虑用CUSUM控制法对变点进行检测,检验统计量为

五、对CUSUM的第一种改进

上一节中我们从两个方面说明通用的CUSUM的不足之处,本节我们首先针对第一个不足提出改进办法。

假设我们采用参数为(k,h)的CUSUM来对过程进行控制,那么,我们总是允许平均观测值与受控状态下的总体均值有一个不大于k的偏离。换一种思路,在一次检验过程中,随着观测值个数的增多,我们允许的平均观测值与受控状态下的总体均值的偏离应随着n的增大而越来越小。因此,我们给出下述统计量:在一次检验过程中,定义

我们为什么提出(23)作为检验统计量,主要是基于下述想法:设有来自某正态分布N(μ,σ[2])的序列观测值x[,1],x[,2],…,为了检验该正态总体的均值是否大于0,我们先看第一个观测值,根据众所周知的3σ原则,若x[,1]>3σ,则我们可以很有把握地说该正态总体的均值大于0,否则,看第二个观测值,当然我们也可以看是否有x[,2]>3σ,进一步,我们还可以看有没有x[,1]+x[,2]>3σ+3σ,若有,显然可以很有把握地说μ>0。另一方面,由于x[,1]+x[,2]~N(2μ,2σ[2])因此,

显然,(25)比(24)的要求要松很多,特别是对大的n。可以看出,若将3σ换成k,(24)就对应通用的CUSUM统计量,而(25)则对应我们新提出的统计量(23)。

我们将统计量(23)应用到第2节中的连续检验问题。我们将连续检验问题分解成一系列的检验过程,在一次新的检验过程中,我们使用(23)作为检验统计量。明确起见,设新的检验过程从第m+1个观测值开始(m未知变量,由样本决定),则(23)等价于

我们将由(26)和(27)组成的累积和检验称为变动和式累积和检验,记为PCUSUM。

我们也可以这样来看(26)。回顾(5),常用的CUSUM是这样设想的:对某个参数组合(k,h),在时刻n,

例1 我们模拟产生二组容量为50的数据,分别列在表1和表2(图表略,见原文,下同)中,其中第一组数据全部来自标准正态分布(处于受控状态),而第二组数据中前10个数据来自标准正态分布,后40个数据来自均值为0.5,方差为1的正态分布,亦即后40个数据有一个大小为0.5的漂移(处于失控状态)。我们对这二组数据分别运用Z[,n]和P[,n]进行控制,在Z[,n]中取k=0.5,在P[,n]中取d=1。表1和表2中也列出了每一步的统计量Z[,n]和P[,n]的值。图1表示受控状态下运用两种统计量的走势图。图2表示失控状态下运用二种统计量的走势图。在二个图中,圆圈‘○’表示运用Z[,n]得到的统计量值,星号‘*’表示运用P[,n]得到的统计量值。从图1可以看出,在受控状态下,用P[,n]和Z[,n]产生的效果相差不大,二者很接近,其最大取值分别为1.9275和1.5233,均不会给出报警。而在图2中,Z[,n]和P[,n]的走势图大不相同:Z[,n]的走势比较平缓,其最大取值为3.4141,不超出一般性要求下的控制限h(见后面对控制图门限值的讨论),而P[,n]的走势则有一个明显的向上趋势,其最大值达到9.4380,明显地给出报警。

图2 失控状态下的统计量的走势图

圆圈‘○’表示统计量Z[,n]的取值,

星号‘*’表示统计量P[,n]的取值

六、平均运行长度

接下来我们考察统计量P[,n]的平均运行长度ARL。

设x[,1],x[,2],…是来自N(0,1)的独立观测值,记

有了(35)和(44)式,我们可以计算在检测向上漂移时采用PCUSUM的平均运行长度。表3在要求ARL[,0]≥250的条件下列出了部分(d,h,δ)对应的ARL。δ=0一行对应的是受控状态下的平均运行长度ARL[,0],其它行对应的是各个δ下的失控平均运行长度。从表3可以看出,在P[,n]中选择d=1时其失控状态下的ARL总的来说比较小。

七、对CUSUM的再研究

对常用的k=0.5,通过计算发现当h=2.13时其ARL[,0]约为250,我们也计算了该方法的失控平均运行长度,结果见表4中的M[,1]列,不难看出,在ARL[,0]大致相同(约为250)的条件下,其失控平均运行长度偏高,结果不理想。

分析一下由(45)与(46)组成的检测统计量,可以看出,要做出“有漂移发生”的结论对Z[,n]的要求很高,

我们也计算了采用(45)与(47)进行检测的平均运行长度,表4中M[,2]列给出了取K=0.5,h=2.96时的结果。由表4可以看出,采用(45)与(47)的结果虽比采用(45)与(46)好,但与CUSUM的结果相比也并不理想。比如,我们将表4中的M[,2]列与C[,2]进行比较,在大多数情况下,M[,2]列的失控ARL要大于C[,2]列的相应值。

在计算由(48)与(49)组成的检测过程的受控平均运行长度时,迭代的收敛速度较慢。在前面涉及的平均运行长度的迭代计算收敛速度都很快,一般经过几十次迭代就可以了,最多也只需要一百多次。而在这里,取h=2.5时ARL[,0]的计算经过近千次的迭代未能满足我们的收敛要求,然而这并不是大问题。我们知道,由与导出定理1的过程一样,考虑在过程刚开始时的一次检验过程,令

运用(56)式我们可以得到采用(48)与(49)进行检测的ARL[,0]的下界,而其ARL[,1]的计算由于的阶高,因而收敛速度很快,取h=2.5,其ARL的计算结果也列于表4中M[,3],其中ARL[,0]是经过一千次选代后得到的下界。

由表4可以明显地看出,在各检验方法的ARL[,0]大致相同(表中δ=0.00一行,均约为250)的条件下,由(48)与(49)组成的检测方法具有最好的效——其在各个漂移δ下的失控ARL都最小。我们把由(48)与(49)组成的累积和检验称为变动限累积和检验,记为DCUSUM。

本文中的讨论都是基于检测向上漂移进行的。向下漂移的检测与向上漂移的检测本质上没有任何区别,因此,本文中的所有结果对检测向下漂移同样是适用的。对双向检测问题,由于双向检测相当于同时进行二个单向检测,只要有一个检测过程给出报警,无论是向上检测给出报警,还是向下检测给出报警,都给出双向检测的报警。因此,双向检验问题与单向检验问题的讨论是类似的,此处从略。

标签:;  ;  

关于积累和(CUSUM)检验的改进_检验统计量论文
下载Doc文档

猜你喜欢