34 votos

Grados de libertad de $\chi^2$ en la prueba de Hosmer-Lemeshow

La estadística de prueba para el Hosmer-Lemeshow (HLT) para la bondad del ajuste (GOF) de un modelo de regresión logística se define como sigue:

A continuación, la muestra se divide en $d=10$ deciles, $D_1, D_2, \dots , D_{d}$ por decil se calculan las siguientes cantidades:

  • $O_{1d}=\displaystyle \sum_{i \in D_d} y_i$ es decir, el número observado de casos positivos casos en el decil $D_d$ ;
  • $O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)$ es decir, el número observado de casos negativos en el decil $D_d$ ;
  • $E_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i$ es decir, el número estimado de casos positivos en el decil $D_d$ ;
  • $E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)$ es decir, el número estimado de de casos negativos en el decil $D_d$ ;

donde $y_i$ es el resultado binario observado para el $i$ -a la observación y $\hat{\pi}_i$ la probabilidad estimada para esa observación.

Entonces la estadística de la prueba se define como

$X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2,$

donde $\hat{\pi}_g$ es la probabilidad media estimada en el decil $g$ y que $n_g$ sea el número de empresas del decil.

Según Hosmer-Lemeshow (véase este enlace ) esta estadística tiene (bajo ciertos supuestos) un $\chi^2$ distribución con $(d-2)$ grados de libertad .

Por otro lado si definiera una tabla de contingencia con $d$ filas (correspondientes a los deciles) y 2 columnas (correspondientes al resultado binario verdadero/falso) entonces el estadístico de prueba para el $\chi^2$ prueba para esta tabla de contingencia sería la misma que la $X^2$ definido anteriormente, sin embargo, en el caso de la tabla de contingencia, este estadístico de prueba es $\chi^2$ con $(d-1)(2-1)=d-1$ grados de libertad . Así que un grado de libertad más ¡!

¿Cómo se puede explicar esta diferencia en el número de grados de libertad?

EDIT: adiciones después de leer los comentarios:

@whuber

Dicen (ver Hosmer D.W., Lemeshow S. (1980), A goodness-of-fit test for the multiple logistic regression model. Communications in Statistics, A10, 1043-1069 ) que existe un teorema demostrado por Moore y Spruill del que se deduce que si (1) los parámetros se estiman utilizando funciones de verosimilitud para datos no agrupados y (2) las frecuencias en la tabla de 2xg dependen de los parámetros estimados, es decir, las celdas son aleatorias, no fijas, que entonces, bajo condiciones de regularidad apropiadas el estadístico de bondad de ajuste bajo (1) y (2) es el de un chi-cuadrado central con la habitual reducción de grados de libertad debido a los parámetros estimados más una suma de variables chi-cuadrado ponderadas.

Entonces, si entiendo bien su artículo, intentan encontrar una aproximación para este "término de corrección" que, si lo entiendo bien, es esta suma ponderada de variables aleatorias chi-cuadrado, y lo hacen haciendo simulaciones, pero debo admitir que no entiendo del todo lo que dicen ahí, de ahí mi pregunta; ¿por qué estas celdas son aleatorias, cómo influye eso en los grados de libertad? ¿Sería diferente si fijara los bordes de las celdas y luego clasificara las observaciones en celdas fijas basándose en la puntuación estimada, en ese caso las celdas no son aleatorias, aunque el "contenido" de la celda sí lo es?

@Frank Harell: ¿no podría ser que las "deficiencias" de la prueba de Hosmer-Lemeshow que menciona en sus comentarios más abajo, sean sólo una consecuencia de la aproximación de la suma ponderada de chi-cuadrados ?

3voto

user164061 Puntos 281

El teorema al que te refieres (la parte de la reducción habitual "reducción habitual de los grados de libertad debido a los parámetros estimados") ha sido defendido principalmente por R.A. Fisher. En "On the interpretation of Chi Square from Contingency Tables, and the Calculation of P" (1922) defendió el uso de la $(R-1) * (C-1)$ y en "The goodness of fit of regression formulae" (1922) sostiene que hay que reducir los grados de libertad por el número de parámetros utilizados en la regresión para obtener los valores esperados de los datos. (Es interesante observar que la gente utilizó mal la prueba de chi-cuadrado, con grados de libertad erróneos, durante más de veinte años desde su introducción en 1900)

Su caso es del segundo tipo (regresión) y no del primero (tabla de contingencia), aunque los dos están relacionados en el sentido de que son restricciones lineales sobre los parámetros.

Porque se modelan los valores esperados, a partir de los valores observados, y se hace con un modelo que tiene dos la reducción "habitual" de los grados de libertad es de dos más uno (uno más porque los O_i tienen que sumar un total, lo cual es otra restricción lineal, y se termina efectivamente con una reducción de dos, en lugar de tres, debido a la "ineficacia" de los valores esperados modelados).


La prueba de chi-cuadrado utiliza un $\chi^2$ como medida de distancia para expresar lo cerca que está un resultado de los datos esperados. En las numerosas versiones de las pruebas de chi-cuadrado, la distribución de esta "distancia" está relacionada con la suma de las desviaciones en las variables con distribución normal (lo cual es cierto sólo en el límite y es una aproximación si se trata de datos con distribución no normal).

Para la distribución normal multivariante la función de densidad está relacionada con la $\chi^2$ por

$f(x_1,...,x_k) = \frac{e^{- \frac{1}{2}\chi^2} }{\sqrt{(2\pi)^k \vert \mathbf{\Sigma}\vert}}$

con $\vert \mathbf{\Sigma}\vert$ el determinante de la matriz de covarianza de $\mathbf{x}$

y $\chi^2 = (\mathbf{x}-\mathbf{\mu})^T \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})$ es la distancia mahalanobis que se reduce a la distancia euclidiana si $\mathbf{\Sigma}=\mathbf{I}$ .

En su artículo de 1900 Pearson argumentó que el $\chi^2$ -son esferoides y que puede transformar a coordenadas esféricas para integrar un valor como $P(\chi^2 > a)$ . Que se convierte en una integral única.


Es esta representación geométrica, $\chi^2$ como una distancia y también un término en la función de densidad, que puede ayudar a entender la reducción de grados de libertad cuando hay restricciones lineales.

Primero el caso de una tabla de contingencia 2x2 . Debería notar que los cuatro valores $\frac{O_i-E_i}{E_i}$ no son cuatro variables independientes de distribución normal. En cambio, están relacionadas entre sí y se reducen a una sola variable.

Utilicemos la tabla

$O_{ij} = \begin{array}{cc} o_{11} & o_{12} \\ o_{21} & o_{22} \end{array}$

entonces si los valores esperados

$E_{ij} = \begin{array}{cc} e_{11} & e_{12} \\ e_{21} & e_{22} \end{array}$

donde se fija entonces $\sum \frac{o_{ij}-e_{ij}}{e_{ij}}$ se distribuiría como una distribución chi-cuadrado con cuatro grados de libertad, pero a menudo estimamos el $e_{ij}$ basado en el $o_{ij}$ y la variación no es como cuatro variables independientes. En su lugar, obtenemos que todas las diferencias entre $o$ y $e$ son los mismos

$ \begin{array}\\&(o_{11}-e_{11}) &=\\ &(o_{22}-e_{22}) &=\\ -&(o_{21}-e_{21}) &=\\ -&(o_{12}-e_{12}) &= o_{11} - \frac{(o_{11}+o_{12})(o_{11}+o_{21})}{(o_{11}+o_{12}+o_{21}+o_{22})} \end{array}$

y son efectivamente una sola variable en lugar de cuatro. Geométricamente se puede ver esto como el $\chi^2$ valor no se integra en una esfera de cuatro dimensiones, sino en una sola línea.

Tenga en cuenta que esta prueba de tabla de contingencia es no el caso de la tabla de contingencia en la prueba de Hosmer-Lemeshow (¡utiliza una hipótesis nula diferente!). Véase también la sección 2.1 "el caso cuando $\beta_0$ y $\underline\beta$ son conocidos" en el artículo de Hosmer y Lemshow. En su caso se obtienen 2g-1 grados de libertad y no g-1 grados de libertad como en la regla (R-1)(C-1). Esta regla (R-1)(C-1) es específicamente el caso de la hipótesis nula de que las variables de fila y columna son independientes (lo que crea restricciones R+C-1 en la $o_i-e_i$ valores). La prueba de Hosmer-Lemeshow se refiere a la hipótesis de que las celdas se rellenan según las probabilidades de un modelo de regresión logística basado en $four$ parámetros en el caso de la hipótesis de distribución A y $p+1$ parámetros en el caso de la hipótesis de distribución B.

En segundo lugar, el caso de una regresión. Una regresión hace algo similar a la diferencia $o-e$ como la tabla de contingencia y reduce la dimensionalidad de la variación. Hay una buena representación geométrica para esto como el valor $y_i$ puede representarse como la suma de un término del modelo $\beta x_i$ y un término residual (no de error) $\epsilon_i$ . El término del modelo y el término residual representan cada uno un espacio dimensional perpendicular entre sí. Esto significa que los términos residuales $\epsilon_i$ ¡no puede tomar ningún valor posible! Es decir, se reducen por la parte que se proyecta sobre el modelo, y más concretamente 1 dimensión para cada parámetro del modelo.


Tal vez las siguientes imágenes puedan ayudar un poco

A continuación se muestran 400 veces tres variables (no correlacionadas) de las distribuciones binomiales $B(n=60,p={1/6,2/6,3/6})$ . Se refieren a variables con distribución normal $N(\mu=n*p,\sigma^2=n*p*(1-p))$ . En la misma imagen dibujamos la iso-superficie para $\chi^2={1,2,6}$ . Integrando sobre este espacio utilizando las coordenadas esféricas de manera que sólo necesitamos una única integración (porque el cambio de ángulo no cambia la densidad), sobre $\chi$ resultados en $\int_0^a e^{-\frac{1}{2} \chi^2 }\chi^{d-1} d\chi$ en el que este $\chi^{d-1}$ parte representa el área de la esfera d-dimensional. Si limitáramos las variables $\chi$ de alguna manera que la integración no sería sobre una esfera d-dimensional sino algo de menor dimensión.

graphical representation of chi^2

La imagen siguiente puede servir para hacerse una idea de la reducción dimensional de los términos residuales. Explica el método de ajuste por mínimos cuadrados en términos geométricos.

En azul tienes las medidas. En rojo tienes lo que permite el modelo. A menudo, la medición no es exactamente igual al modelo y tiene alguna desviación. Puedes considerar esto, geométricamente, como la distancia del punto medido a la superficie roja.

Las flechas rojas $mu_1$ y $mu_2$ tienen valores $(1,1,1)$ y $(0,1,2)$ y podría relacionarse con algún modelo lineal como x = a + b * z + error o

$\begin{bmatrix}x_{1}\\x_{2}\\x_{3}\end{bmatrix} = a \begin{bmatrix}1\\1\\1\end{bmatrix} + b \begin{bmatrix}0\\1\\2\end{bmatrix} + \begin{bmatrix}\epsilon_1\\\epsilon_2\\\epsilon_3\end{bmatrix} $

por lo que el tramo de esos dos vectores $(1,1,1)$ y $(0,1,2)$ (el plano rojo) son los valores de $x$ que son posibles en el modelo de regresión y $\epsilon$ es un vector que es la diferencia entre el valor observado y el valor de regresión/modelado. En el método de mínimos cuadrados, este vector es perpendicular (la distancia mínima es la suma mínima de cuadrados) a la superficie roja (y el valor modelado es la proyección del valor observado sobre la superficie roja).

Así, esta diferencia entre lo observado y lo esperado (modelado) es una suma de vectores perpendiculares al vector modelo (y este espacio tiene la dimensión del espacio total menos el número de vectores modelo).

En nuestro sencillo caso de ejemplo La dimensión total es 3. El modelo tiene 2 dimensiones. Y el error tiene una dimensión 1 (así que no importa cuál de esos puntos azules tome, las flechas verdes muestran un solo ejemplo, los términos de error tienen siempre la misma proporción, siguen un solo vector).

graphical representation of regression dimension reduction


Espero que esta explicación sea de ayuda. No es en absoluto una prueba rigurosa y hay algunos trucos algebraicos especiales que hay que resolver en estas representaciones geométricas. Pero de todos modos me gustan estas dos representaciones geométricas. La del truco de Pearson para integrar el $\chi^2$ utilizando las coordenadas esféricas, y la otra para ver el método de la suma de mínimos cuadrados como una proyección sobre un plano (o un tramo mayor).

Siempre me sorprende cómo acabamos con $\frac{o-e}{e}$ Esto, desde mi punto de vista, no es trivial ya que la aproximación normal de una binomial no es una devisión por $e$ sino por $np(1-p)$ y en el caso de las tablas de contingencia se puede resolver fácilmente, pero en el caso de la regresión u otras restricciones lineales no resulta tan fácil, mientras que la literatura suele ser muy fácil al argumentar que "funciona igual para otras restricciones lineales". (Un ejemplo interesante del problema. Si se realiza la siguiente prueba varias veces 'lanzar 2 veces 10 una moneda y sólo registrar los casos en los que la suma es 10' entonces no se obtiene la típica distribución chi-cuadrado para esta restricción lineal "simple")

3voto

Hosmer D.W., Lemeshow S. (1980), A goodness-of-fit test for the multiple logistic regression model. Communications in Statistics, A10, 1043-1069 mostrar eso:

Si el modelo es un modelo de regresión logística y el $p$ los parámetros son estimados por máxima verosimilitud y el $G$ los grupos se definen en el probabilidades estimadas, entonces se sostiene que $X^2$ es asintóticamente $\chi^2(G-p-1)+\sum_{i=1}^{p+1} \lambda_i \chi_i^2(1)$ (Hosmer,Lemeshow, 1980, p.1052, Teorema 2).

(Nota: las condiciones necesarias no están explícitamente en el Teorema 2 de la página 1052, pero si se lee atentamente el documento y la prueba, aparecen)

El segundo término $\sum_{i=1}^{p+1} \lambda_i \chi_i^2(1)$ resulta del hecho de que la agrupación se basa en cantidades estimadas -es decir, aleatorias- (Hosmer,Lemeshow, 1980, p.1051)

Utilizando simulaciones demostraron que el segundo término puede ser (en los casos utilizados en la simulación) aproximado por un $\chi^2(p-1)$ (Hosmer,Lemeshow, 1980, p.1060)

La combinación de estos dos hechos da como resultado una suma de dos $\chi^2$ variables, una con $G-p-1$ grados de libertad y una segunda con $p-1$ grados de libertad o $X^2 \sim \chi^2(G-p-1+p-1=G-2)$

Así que la respuesta a la pregunta se encuentra en la ocurrencia de la "ponderación chi-cuadrado" o en el hecho de que los grupos se definan utilizando probabilidades estimadas que son en sí mismas variables aleatorias.

Ver también Documento de Hosmer Lemeshow (1980) - Teorema 2

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X