25 votos

¿Por qué no Wilks' de 1938 prueba de trabajo para mal especificada modelos?

En el famoso 1938 papel ("La gran muestra de la distribución de la razón de verosimilitud para la prueba de compuesto de hipótesis", Anales de la Estadística Matemática, 9:60-62), Samuel Wilks derivados de la distribución asintótica de $2 \times LLR$ (log likelihood ratio) para anidada hipótesis, bajo la suposición de que la hipótesis se ha especificado correctamente. La limitación de la distribución es $\chi^2$ (chi-cuadrado) con $h-m$ grados de libertad, donde $h$ es el número de parámetros en las grandes hipótesis y $m$ es el número de parámetros libres anidado en la hipótesis. Sin embargo, que supuestamente es bien sabido que este resultado no se mantiene cuando las hipótesis son mal especificada (es decir, cuando el más grande hipótesis no es la verdadera distribución de los datos de la muestra).

¿Alguien puede explicar por qué? A mí me parece que Wilks' la prueba debe trabajar con modificaciones menores. Se basa en la normalidad asintótica de la estimación de máxima verosimilitud (MLE), que aún mantiene con mal especificada modelos. La única diferencia es la matriz de covarianza de la limitación normal multivariante: para la correcta especificado modelos, se puede aproximar la matriz de covarianza con la inversa de la matriz de información de Fisher $J^{-1}$, con misspecification, podemos utilizar el sándwich de estimación de la matriz de covarianza ($J^{-1} K J^{-1}$). En segundo lugar, reduce a la inversa de la matriz de información de Fisher cuando el modelo está correctamente especificado (desde $J = K$). AFAICT, prueba de Wilks no importa de donde la estimación de la matriz de covarianza viene, siempre y cuando tengamos una invertible asintótica matriz de covarianza de la normal multivariante para la Emv ($c^{-1}$ en el Wilks papel).

21voto

Jeff Bauer Puntos 236

R. V. Foutz y de hormigón armado Srivastava ha examinado en detalle la cuestión. Sus 1977 papel "el rendimiento de La prueba de razón de verosimilitud cuando el modelo es incorrecta" contiene una declaración de la distribución de resultados en caso de misspecification, junto con una muy breve esbozo de la prueba, mientras que sus 1978 papel de "La distribución asintótica de la razón de verosimilitud cuando el modelo es incorrecta" contiene la prueba, pero el último se escribió en antigua maquina de escribir (ambos papeles utilizar la misma notación, aunque, así que usted puede combinarlos en la lectura). También, para algunos de los pasos de la prueba se refieren a un artículo de K. P. Roy "Una nota sobre la distribución asintótica de razón de verosimilitud" de 1957, que no parece estar disponible en línea, aún cerrada.

En el caso de la distribución de la misspecification, si el MLE todavía es consistente y asintóticamente normal (que es no siempre el caso), el LR de la estadística sigue asintóticamente una combinación lineal de independiente chi-cuadrados (cada una de un grado de libertad)

$$-2\ln \lambda \xrightarrow{d} \sum_{i=1}^{r}c_i\mathcal \chi^2_i$$

donde $r=h-m$. Uno puede ver la "similitud": en lugar de una chi-cuadrado con $h-m$ grados de libertad, tenemos $h-m$ chi-cuadrados cada uno con un grado de libertad. Pero la "analogía" se detiene allí, porque una combinación lineal de chi-cuadrados no tiene una forma cerrada de la densidad. Cada escala de la chi-cuadrado es un gamma, pero con diferentes $c_i$ parámetro que conduce a una escala diferente de parámetros para la gamma -y la suma de tales gammas no es de forma cerrada, aunque sus valores pueden ser calculados.

Para el $c_i$ constantes, tenemos $c_1 \geq c_2\geq ...c_r \geq0$, y son los autovalores de una matriz... que la matriz? Así, el uso de los autores de la notación, establezca $\Lambda$ a ser el de Hesse de la log-verosimilitud y $C$ a ser el exterior producto de la pendiente de la log-verosimilitud (en expectational términos). Por lo $V = \Lambda^{-1} C (\Lambda')^{-1}$ es la asintótica de varianza-covarianza de la matriz de la MLE.

A continuación, establezca $M$ $r \times r$ superior de la manzana de la diagonal de a $V$.

También escribo $\Lambda$ en forma de bloque

$$\Lambda =\left [\begin {matrix} \Lambda_{r\times r} & \Lambda_2'\\ \Lambda_2 & \Lambda_3\\ \end{de la matriz}\right]$$

y el conjunto de $W = -\Lambda_{r\times r}+\Lambda_2'\Lambda_3^{-1}\Lambda_2$ ($W$ es el negativo de el Complemento de Schur de $\Lambda$).

A continuación, el $c_i$'s son los autovalores de la matriz $MW$ evaluados en los verdaderos valores de los parámetros.

ANEXO
Respondiendo a la validez de la observación de la OP en los comentarios (de hecho, algunas de las preguntas convertirse en un trampolín para compartir más general resultado, y sí pueden dejarse de lado en el proceso), aquí es cómo Wilks prueba de ingresos: Wilks se inicia con la articulación de la distribución normal de la MLE, y se procede a derivar de la expresión funcional de la razón de Verosimilitud. Hasta e incluyendo su eq. $[9]$, la prueba se puede mover hacia adelante, incluso si suponemos que tenemos una distribución misspecification: como el OP notas, los términos de la varianza de la matriz de covarianza será diferente en el misspecification escenario, pero todos Wilks hace es tomar los derivados, e identificar asintóticamente insignificante términos. Y así se llega a la eq. $[9]$ donde vemos que el cociente de probabilidad estadística, si la especificación es correcta, es sólo la suma de $h-m$ cuadrado aleatoria normal estándar de las variables, y por lo que se distribuye como una chi-cuadrado con $h-m$ grados de libertad: (genéricos de la notación)

$$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 \xrightarrow{d} \mathcal \chi^2_{h-m}$$

Pero si tenemos misspecification, a continuación, los términos que se utilizan con el fin de aumentar el centrado y ampliada MLE $\sqrt n(\hat \theta -\theta)$ no son los términos que van a hacer las varianzas de cada elemento igual a la unidad, y así transformar a cada término en una normal estándar r.v y la suma en una chi-cuadrado.
Y no lo son, debido a que estos términos implican los valores esperados de la segunda derivados de la log-verosimilitud... pero el valor esperado sólo puede ser tomada con respecto a la verdadera distribución, ya que el EML es una función de los datos y de los datos de la siguiente manera la verdadera distribución, mientras que el segundo de los derivados de la log-verosimilitud se calcula con base en el mal de la densidad de la asunción.

Así que bajo misspecification tenemos algo como $$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{a_i}\right)^2$$ y lo mejor que podemos hacer es manipular

$$-2\ln \lambda = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\mathcal \chi^2_1$$

que es una suma de la escala de chi-cuadrado de r.v.'s, ya no se distribuye como una chi-cuadrado de r.v. con $h-m$ grados de libertad. La referencia proporcionados por el OP es de hecho una muy clara exposición de este caso más general que incluye Wilks' resultado como un caso especial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X