46 votos

¿Por qué se distribuye la prueba de razón de verosimilitudes chi-cuadrado?

¿Por qué la estadística de prueba de una prueba de razón de verosimilitud se distribuye como chi-cuadrado?

$2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}$

3 votos

17 votos

Gracias por la referencia. Aquí tienes una de mi parte: stats.stackexchange.com/faq#etiquette

7 votos

Ten en cuenta el "Trae tu sentido del humor" aquí. No pretendía ser grosero, pero la respuesta a esta pregunta sería relativamente tediosa y consistiría, básicamente, en el contenido de ese artículo (o algunos de los mejores libros de estadísticas). Si mencionas tu problema específico con la explicación en alguno de estos, estaré encantado de ayudarte.

33voto

Ηλίας Puntos 109

Como mencionó @Nick esto es consecuencia del teorema de Wilks. Pero tenga en cuenta que la estadística de prueba es asintóticamente distribuida como $\chi^2$, no distribuida como $\chi^2$.

Estoy muy impresionado por este teorema porque es válido en un contexto muy amplio. Considere un modelo estadístico con verosimilitud $l(\theta \mid y)$ donde $y$ es el vector de observaciones de $n$ observaciones replicadas independientes de una distribución con parámetro $\theta$ perteneciente a una subvariedad $B_1$ de $\mathbb{R}^d$ con dimensión $\dim(B_1)=s$. Sea $B_0 \subset B_1$ una subvariedad con dimensión $\dim(B_0)=m$. Imagine que está interesado en probar $H_0\colon\{\theta \in B_0\}$.

La razón de verosimilitud es $$lr(y) = \frac{\sup_{\theta \in B_1}l(\theta \mid y)}{\sup_{\theta \in B_0}l(\theta \mid y)}. $$ Defina la desviación $d(y)=2 \log \big(lr(y)\big)$. Entonces el teorema de Wilks dice que, bajo suposiciones de regularidad habituales, $d(y)$ es asintóticamente distribuida como $\chi^2$ con $s-m$ grados de libertad cuando $H_0$ es verdadero.

Está probado en el artículo original de Wilks mencionado por @Nick. Creo que este artículo no es fácil de leer. Wilks publicó más tarde un libro, quizás con una presentación más sencilla de su teorema. Una breve prueba heurística se da en el excelente libro de Williams.

4 votos

Triste que este teorema no se mencione en la página de Wikipedia dedicada a Samuel S. Wilks

7 votos

Oh venga Stephane. Esto es Wikipedia, ¡puedes editarlo y mejorarlo!

2 votos

@StasK Sé eso, pero nunca lo he intentado. ¡Y ya paso demasiado tiempo de mi vida con estadísticas y matemáticas!

30voto

StasK Puntos 19497

Apoyo el comentario duro de Nick Sabbe, y mi respuesta breve es, No lo es. Quiero decir, solo lo es en el modelo lineal normal. Para absolutamente cualquier otro tipo de circunstancia, la distribución exacta no es una $\chi^2$. En muchas situaciones, puedes esperar que las condiciones del teorema de Wilks se cumplan, y luego asintóticamente las estadísticas del test del cociente de verosimilitudes convergen en distribución a $\chi^2$. Las limitaciones y violaciones de las condiciones del teorema de Wilks son demasiadas para ignorar.

  1. El teorema asume datos i.i.d. $\Rightarrow$ esperar problemas con datos dependientes, como series temporales o muestras de encuestas con probabilidades desiguales (para las cuales las verosimilitudes están mal definidas de todos modos; los tests $\chi^2$ "regulares", como los tests de independencia en tablas de contingencia, comienzan a comportarse como una suma $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$ (Rao & Scott). Para datos i.i.d., $a_k=1$, y la suma se convierte en el $\chi^2$. Pero para datos no independientes, este ya no es el caso.
  2. El teorema asume que el verdadero parámetro está en el interior del espacio de parámetros. Si tienes un espacio euclidiano con el que trabajar, eso no es un problema. Sin embargo, en algunos problemas, pueden surgir restricciones naturales, como varianza $\ge$ 0 o correlación entre -1 y 1. Si el verdadero parámetro está en el límite, entonces la distribución asintótica es una mezcla de $\chi^2$ con diferentes grados de libertad, en el sentido de que la función de distribución acumulativa del test es la suma de tales funciones de distribución (Andrews 2001, más dos o tres de sus artículos de la misma época, con una historia que se remonta a Chernoff 1954).
  3. El teorema asume que todas las derivadas relevantes son no nulas. Esto puede ser desafiado con algunos problemas no lineales y/o parametrizaciones, y/o situaciones cuando un parámetro no es identificado bajo la hipótesis nula. Supongamos que tienes un modelo de mezcla gaussiana, y tu nula es un componente $N(\mu_0,\sigma^2_0)$ vs. la alternativa de dos componentes distintos $f N(\mu_1,\sigma_1^2) + (1-f) N(\mu_2,\sigma_2^2)$ con una fracción de mezcla $f$. La nula aparentemente está anidada en la alternativa, pero esto se puede expresar de varias formas: como $f=0$ (en cuyo caso los parámetros $\mu_1,\sigma_1^2$ no están identificados), $f=1$ (en cuyo caso $\mu_2, \sigma_2^2$ no están identificados), o $\mu_1=\mu_2, \sigma_1=\sigma_2$ (en cuyo caso $f$ no está identificado). Aquí, ni siquiera puedes decir cuántos grados de libertad debería tener tu test, ya que tienes diferentes restricciones dependiendo de cómo parametrices el anidamiento. Ver el trabajo de Jiahua Chen sobre esto, por ejemplo CJS 2001.
  4. El $\chi^2$ puede funcionar bien si la distribución ha sido especificada correctamente. Pero si no lo fue, el test fallará nuevamente. En la (en gran medida ignorada por los estadísticos) subárea del análisis multivariante conocida como modelado de covarianzas de ecuaciones estructurales, a menudo se asume una distribución normal multivariante, pero incluso si la estructura es correcta, el test se comportará mal si la distribución es diferente. Satorra y Bentler 1995 muestran que la distribución se convierte en $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$, la misma historia que con datos no independientes en mi punto 1, pero también han demostrado cómo los $a_k$ dependen de la estructura del modelo y de los cuartos momentos de la distribución.
  5. Para muestras finitas, en una gran variedad de situaciones, la razón de verosimilitudes es corregible por Bartlett: mientras que ${\rm Prob}[d(y) \le x]=F(x;\chi^2_d)[1+O(n^{-1})]$ para una muestra de tamaño $n$, siendo $F(x;\chi^2_d)$ la función de distribución de la distribución $\chi^2_d$, para los problemas de verosimilitud regulares puedes encontrar una constante $b$ tal que ${\rm Prob}[d(y)/(1+b/n) \le x]=F(x;\chi^2_d)[1+O(n^{-2})]$, es decir, a un orden de precisión superior. Por lo tanto, la aproximación $\chi^2$ para muestras finitas se puede mejorar (y posiblemente se deba mejorar si sabes cómo). La constante $b$ depende de la estructura del modelo, y a veces de los parámetros auxiliares, pero si se puede estimar consistentemente, eso también funciona para mejorar el orden de cobertura.

Para una revisión de estos y problemas esotéricos similares en la inferencia de verosimilitud, consulta Smith 1989.

1 votos

¡Gracias! Muy instructivo. ¿Qué quieres decir con "solo está en el modelo lineal normal"? Para una prueba de Fisher cuando $B_0$ y $B_1$ son subespacios lineales, entonces la desviación es una función monótona de la estadística de Fisher, y solo es asintóticamente $\chi^2.

0 votos

Con varianza conocida, debería agregar.

10voto

Aaron Puntos 36

Tal como otros comentaristas han señalado, el teorema de Wilks (Wilks 1938) sólo demuestra que, bajo diversas condiciones de regularidad, esta estadística se distribuye asintóticamente como una chi-cuadrado. El resultado asintótico proviene de realizar una expansión de Taylor multivariante de la función log-verosimilitud y observando qué sucede cuando el EMA es un punto crítico de la función. Utilizando diversos resultados asintóticos relacionados con el EMA es posible eliminar todos los términos de la expansión excepto el de segundo orden, que asintóticamente se convierte en la norma al cuadrado de un vector aleatorio normal.

Las demostraciones del teorema de Wilks se pueden encontrar en varios libros de teoría de la estimación, y también hay versiones flotando en notas de conferencias de estadística en línea (ver por ejemplo, aquí). La derivación general requiere conocimiento de series de Taylor multivariantes y resultados relativos al EMA de un parámetro vectorial. Una versión más simple de la derivación se puede mostrar en el caso escalar donde el modelo alternativo tiene solo un parámetro más (escalar) que el modelo nulo. Con fines ilustrativos, mostraré la derivación heurística del resultado en este caso.


Demostración heurística del teorema de Wilks con un grado de libertad: Consideremos el caso simple donde tenemos una hipótesis alternativa con solo un parámetro escalar $\theta$ que está fijo en el valor $\theta_0$ bajo la hipótesis nula. En este caso tenemos ${df}_A - {df}_0 = 1$ por lo que la distribución asintótica es una distribución chi-cuadrado con un grado de libertad. Para derivar esta distribución asintótica usaremos la siguiente expansión de Taylor:

$$\ell_\mathbf{x}(\theta_0) = \ell_\mathbf{x}(\hat{\theta}_n) + \ell_\mathbf{x}'(\hat{\theta}_n) (\theta_0 - \hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2} (\theta_0 - \hat{\theta}_n)^2 + \mathcal{O}((\theta_0 - \hat{\theta}_n)^3).$$

Para facilitar nuestro análisis, definimos el error estandarizado de estimación $E_n(\theta) \equiv (\theta - \hat{\theta}_n) \sqrt{n\mathcal{I}(\theta)}$ donde $\mathcal{I}$ es la función de información de Fisher. Ahora, supongamos que el EMA $\hat{\theta}_n$ ocurre en un punto crítico de la función log-verosimilitud de modo que $\ell_\mathbf{x}'(\hat{\theta}_n) = 0$. Esto da la siguiente forma simplificada para la expansión de Taylor:

$$\begin{aligned} \ell_\mathbf{x}(\theta_0) &= \ell_\mathbf{x}(\hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2} (\theta_0 - \hat{\theta}_n)^2 + \mathcal{O}((\theta_0 - \hat{\theta}_n)^3) \\[6pt] &= \ell_\mathbf{x}(\hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2 n \mathcal{I}(\theta_0)} \cdot E_n(\theta_0)^2 + \mathcal{O} \bigg( \frac{E_n(\theta_0)^3}{n^{3/2}} \bigg). \\[6pt] \end{aligned}$$

Sustituyendo esta expansión en la estadística de razón de verosimilitudes obtenemos:

$$\begin{aligned} W_n &\equiv 2(\ell_\mathbf{x}(\hat{\theta}_n) - \ell_\mathbf{x}(\theta_0)) \\[6pt] &= - \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{n \mathcal{I}(\theta_0)} \cdot E_n(\theta_0)^2 + \mathcal{O} \bigg( \frac{E_n(\theta_0)^3}{n^{3/2}} \bigg). \\[6pt] \end{aligned}$$

Ahora, supongamos que estás analizando la distribución de $W_n$ bajo la hipótesis nula de que $\theta = \theta_0$. Bajo algunas condiciones de regularidad, se sabe que obtenemos la distribución asintótica $E_n(\theta_0) \sim \text{N}(0, 1)$ y también obtenemos el resultado límite $\ell_\mathbf{x}''(\hat{\theta}_n)/n \rightarrow -\mathcal{I}(\theta_0)$. Esto significa que el término de orden en la expansión anterior desaparecerá asintóticamente, y así obtenemos el resultado asintótico:

$$\begin{aligned} W_n \rightarrow E_n(\theta_0)^2 \sim \chi_{1}^2. \\[6pt] \end{aligned}$$

Este es el resultado asintótico chi-cuadrado que se cumple en el caso en que el modelo alternativo tiene solo un grado de libertad más que el modelo nulo. La derivación más general es esencialmente la misma, pero implica el uso de un vector de parámetro multivariante, lo que significa que usamos la serie de Taylor multivariante y las propiedades del EMA para un parámetro vectorial.


Como otros han señalado, el teorema de Wilks utiliza una serie de condiciones de regularidad, y estas condiciones no siempre se cumplen. El resultado asume que el EMA ocurre en un punto interior del espacio de parámetros que es un punto crítico de la función log-verosimilitud. Además, asume todas las condiciones necesarias para los resultados estándar de normalidad asintótica para el EMA. Incluso cuando se cumplen estas diversas condiciones de regularidad (lo cual sucede en una amplia gama de casos), el resultado es solo un resultado asintótico, por lo que puede que no sea una aproximación especialmente buena para tamaños de muestra pequeños.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X