¿Por qué la estadística de prueba de una prueba de razón de verosimilitud se distribuye como chi-cuadrado?
$2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}$
¿Por qué la estadística de prueba de una prueba de razón de verosimilitud se distribuye como chi-cuadrado?
$2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}$
Como mencionó @Nick esto es consecuencia del teorema de Wilks. Pero tenga en cuenta que la estadística de prueba es asintóticamente distribuida como $\chi^2$, no distribuida como $\chi^2$.
Estoy muy impresionado por este teorema porque es válido en un contexto muy amplio. Considere un modelo estadístico con verosimilitud $l(\theta \mid y)$ donde $y$ es el vector de observaciones de $n$ observaciones replicadas independientes de una distribución con parámetro $\theta$ perteneciente a una subvariedad $B_1$ de $\mathbb{R}^d$ con dimensión $\dim(B_1)=s$. Sea $B_0 \subset B_1$ una subvariedad con dimensión $\dim(B_0)=m$. Imagine que está interesado en probar $H_0\colon\{\theta \in B_0\}$.
La razón de verosimilitud es $$lr(y) = \frac{\sup_{\theta \in B_1}l(\theta \mid y)}{\sup_{\theta \in B_0}l(\theta \mid y)}. $$ Defina la desviación $d(y)=2 \log \big(lr(y)\big)$. Entonces el teorema de Wilks dice que, bajo suposiciones de regularidad habituales, $d(y)$ es asintóticamente distribuida como $\chi^2$ con $s-m$ grados de libertad cuando $H_0$ es verdadero.
Está probado en el artículo original de Wilks mencionado por @Nick. Creo que este artículo no es fácil de leer. Wilks publicó más tarde un libro, quizás con una presentación más sencilla de su teorema. Una breve prueba heurística se da en el excelente libro de Williams.
@StasK Sé eso, pero nunca lo he intentado. ¡Y ya paso demasiado tiempo de mi vida con estadísticas y matemáticas!
Apoyo el comentario duro de Nick Sabbe, y mi respuesta breve es, No lo es. Quiero decir, solo lo es en el modelo lineal normal. Para absolutamente cualquier otro tipo de circunstancia, la distribución exacta no es una $\chi^2$. En muchas situaciones, puedes esperar que las condiciones del teorema de Wilks se cumplan, y luego asintóticamente las estadísticas del test del cociente de verosimilitudes convergen en distribución a $\chi^2$. Las limitaciones y violaciones de las condiciones del teorema de Wilks son demasiadas para ignorar.
Para una revisión de estos y problemas esotéricos similares en la inferencia de verosimilitud, consulta Smith 1989.
¡Gracias! Muy instructivo. ¿Qué quieres decir con "solo está en el modelo lineal normal"? Para una prueba de Fisher cuando $B_0$ y $B_1$ son subespacios lineales, entonces la desviación es una función monótona de la estadística de Fisher, y solo es asintóticamente $\chi^2.
Tal como otros comentaristas han señalado, el teorema de Wilks (Wilks 1938) sólo demuestra que, bajo diversas condiciones de regularidad, esta estadística se distribuye asintóticamente como una chi-cuadrado. El resultado asintótico proviene de realizar una expansión de Taylor multivariante de la función log-verosimilitud y observando qué sucede cuando el EMA es un punto crítico de la función. Utilizando diversos resultados asintóticos relacionados con el EMA es posible eliminar todos los términos de la expansión excepto el de segundo orden, que asintóticamente se convierte en la norma al cuadrado de un vector aleatorio normal.
Las demostraciones del teorema de Wilks se pueden encontrar en varios libros de teoría de la estimación, y también hay versiones flotando en notas de conferencias de estadística en línea (ver por ejemplo, aquí). La derivación general requiere conocimiento de series de Taylor multivariantes y resultados relativos al EMA de un parámetro vectorial. Una versión más simple de la derivación se puede mostrar en el caso escalar donde el modelo alternativo tiene solo un parámetro más (escalar) que el modelo nulo. Con fines ilustrativos, mostraré la derivación heurística del resultado en este caso.
Demostración heurística del teorema de Wilks con un grado de libertad: Consideremos el caso simple donde tenemos una hipótesis alternativa con solo un parámetro escalar $\theta$ que está fijo en el valor $\theta_0$ bajo la hipótesis nula. En este caso tenemos ${df}_A - {df}_0 = 1$ por lo que la distribución asintótica es una distribución chi-cuadrado con un grado de libertad. Para derivar esta distribución asintótica usaremos la siguiente expansión de Taylor:
$$\ell_\mathbf{x}(\theta_0) = \ell_\mathbf{x}(\hat{\theta}_n) + \ell_\mathbf{x}'(\hat{\theta}_n) (\theta_0 - \hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2} (\theta_0 - \hat{\theta}_n)^2 + \mathcal{O}((\theta_0 - \hat{\theta}_n)^3).$$
Para facilitar nuestro análisis, definimos el error estandarizado de estimación $E_n(\theta) \equiv (\theta - \hat{\theta}_n) \sqrt{n\mathcal{I}(\theta)}$ donde $\mathcal{I}$ es la función de información de Fisher. Ahora, supongamos que el EMA $\hat{\theta}_n$ ocurre en un punto crítico de la función log-verosimilitud de modo que $\ell_\mathbf{x}'(\hat{\theta}_n) = 0$. Esto da la siguiente forma simplificada para la expansión de Taylor:
$$\begin{aligned} \ell_\mathbf{x}(\theta_0) &= \ell_\mathbf{x}(\hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2} (\theta_0 - \hat{\theta}_n)^2 + \mathcal{O}((\theta_0 - \hat{\theta}_n)^3) \\[6pt] &= \ell_\mathbf{x}(\hat{\theta}_n) + \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{2 n \mathcal{I}(\theta_0)} \cdot E_n(\theta_0)^2 + \mathcal{O} \bigg( \frac{E_n(\theta_0)^3}{n^{3/2}} \bigg). \\[6pt] \end{aligned}$$
Sustituyendo esta expansión en la estadística de razón de verosimilitudes obtenemos:
$$\begin{aligned} W_n &\equiv 2(\ell_\mathbf{x}(\hat{\theta}_n) - \ell_\mathbf{x}(\theta_0)) \\[6pt] &= - \frac{\ell_\mathbf{x}''(\hat{\theta}_n)}{n \mathcal{I}(\theta_0)} \cdot E_n(\theta_0)^2 + \mathcal{O} \bigg( \frac{E_n(\theta_0)^3}{n^{3/2}} \bigg). \\[6pt] \end{aligned}$$
Ahora, supongamos que estás analizando la distribución de $W_n$ bajo la hipótesis nula de que $\theta = \theta_0$. Bajo algunas condiciones de regularidad, se sabe que obtenemos la distribución asintótica $E_n(\theta_0) \sim \text{N}(0, 1)$ y también obtenemos el resultado límite $\ell_\mathbf{x}''(\hat{\theta}_n)/n \rightarrow -\mathcal{I}(\theta_0)$. Esto significa que el término de orden en la expansión anterior desaparecerá asintóticamente, y así obtenemos el resultado asintótico:
$$\begin{aligned} W_n \rightarrow E_n(\theta_0)^2 \sim \chi_{1}^2. \\[6pt] \end{aligned}$$
Este es el resultado asintótico chi-cuadrado que se cumple en el caso en que el modelo alternativo tiene solo un grado de libertad más que el modelo nulo. La derivación más general es esencialmente la misma, pero implica el uso de un vector de parámetro multivariante, lo que significa que usamos la serie de Taylor multivariante y las propiedades del EMA para un parámetro vectorial.
Como otros han señalado, el teorema de Wilks utiliza una serie de condiciones de regularidad, y estas condiciones no siempre se cumplen. El resultado asume que el EMA ocurre en un punto interior del espacio de parámetros que es un punto crítico de la función log-verosimilitud. Además, asume todas las condiciones necesarias para los resultados estándar de normalidad asintótica para el EMA. Incluso cuando se cumplen estas diversas condiciones de regularidad (lo cual sucede en una amplia gama de casos), el resultado es solo un resultado asintótico, por lo que puede que no sea una aproximación especialmente buena para tamaños de muestra pequeños.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
3 votos
¿Esto ayuda?
17 votos
Gracias por la referencia. Aquí tienes una de mi parte: stats.stackexchange.com/faq#etiquette
7 votos
Ten en cuenta el "Trae tu sentido del humor" aquí. No pretendía ser grosero, pero la respuesta a esta pregunta sería relativamente tediosa y consistiría, básicamente, en el contenido de ese artículo (o algunos de los mejores libros de estadísticas). Si mencionas tu problema específico con la explicación en alguno de estos, estaré encantado de ayudarte.
3 votos
Enlace directo al documento original de Wilks sin restricciones de acceso.
2 votos
Creo que has entendido mal la definición de la estadística de prueba LR. En lugar de $\text{L}_\text{modelo\ alt}$, deberías tener $\max(\text{L}_\text{modelo\ alt},\text{L}_\text{modelo\ nulo})$ o $\text{L}_{\text{modelo\ alt}\ \cup \ \text{modelo\ nulo}}$.