Deje pkpk denotar los parámetros de la kk-th morir (un vector de probabilidades correspondientes a cada lado) y deje ˆpk,n^pk,n se muestra analógica (proporción de la muestra). Una posible medida de similitud entre los dados es
S(p1,p2):=1−d(p1,p2)maxp,q∈Ξd(p,q),S(p1,p2):=1−d(p1,p2)maxp,q∈Ξd(p,q),
donde d(⋅,⋅)d(⋅,⋅) es una distancia en R6 e Ξ es la unidad simplex. Tenga en cuenta que S(p,p)=1 e S(r,s)=0 para (r,s)=argmaxp,q∈Sd(p,q). Desde ˆpk,n→pk a.s., la versión de muestra ˆS:=S(ˆp1,n1,ˆp2,n2) converge a.s. a S(p1,p2).
Desde ˆS es aleatorio, la obtención de un número en particular no proporcionan la información (incluso si el verdadero parámetros son los mismos, en particular la realización de ˆS puede estar cerca de 0). Una forma estadística para evaluar la similitud entre dos distribuciones sería prueba la siguiente hipótesis:
H0:p1=p2,H1:p1≠p2.
En primer lugar, por la CLT,
√n(ˆqk,n−qk)d→N(0,Vk),
donde qk=pk,1:5, ˆqk,n=ˆpk,n,1:5, e Vk=diag(qk)−qkq⊤k.
Suponga que el tamaño de la muestra se nl e ml tal que nl,ml→∞ e ml/nl→1 como l→∞, y deje rl=(nl+ml)/2. Desde ˆp1,nl e ˆp2,ml son independientes,
√rl(ˆq1,nl−q1)−√rl(ˆq2,ml−q2)d→N(0,V1+V2).
Por lo tanto, se puede considerar el siguiente estadístico de prueba:
Tl:=rl(ˆq1,nl−ˆq2,ml)⊤(V1+V2)−1(ˆq1,nl−ˆq2,ml).
En virtud de H0, V1=V2 e Tld→χ25 (en la práctica, Vk es reemplazado por cualquier estimador coherente). Por lo tanto, se rechaza el H0 cuando Tl>χ25,1−α, donde χ25,1−α es el (1−α)-cuantil de χ25.