10 votos

Información de la matriz del sombrero para la regresión logística

Para mí está claro, y bien explicado en múltiples sitios, qué información dan los valores de la diagonal de la matriz del sombrero para la regresión lineal.

La matriz de sombreros de un modelo de regresión logística me resulta menos clara. ¿Es idéntica a la información que se obtiene de la matriz de sombreros aplicando la regresión lineal? Esta es la definición de la matriz de sombreros que encontré en otro tema de CV (fuente 1):

$H=VX ( X'V X)^-1 X' V$

con X el vector de variables predictoras y V es una matriz diagonal con $\sqrt{((1))}$ .

En otras palabras, ¿es también cierto que el valor particular de la matriz de sombreros de una observación también sólo presenta la posición de las covariables en el espacio de covariables, y no tiene nada que ver con el valor del resultado de esa observación?

Esto está escrito en el libro "Categorical data analysis" de Agresti:

Cuanto mayor sea la influencia de una observación, mayor será su potencial influencia en el ajuste. Al igual que en la regresión ordinaria, los apalancamientos caen entre 0 y 1 y suman el número de parámetros del modelo. A diferencia de regresión ordinaria, los valores de los sombreros dependen del ajuste así como de la matriz del modelo, y los puntos que tienen valores predictores extremos no necesitan tener un apalancamiento alto.

Entonces, a partir de esta definición, parece que no podemos usarla como la usamos en la regresión lineal ordinaria?

Fuente 1: ¿Cómo calcular la matriz del sombrero para la regresión logística en R?

6voto

Andy Puntos 10250

Permítanme cambiar un poco la notación y escribir la matriz del sombrero como $$H = V^{\frac{1}{2}}X(X'VX)^{-1}X'V^{\frac{1}{2}}$$ donde $V$ es una matriz simétrica diagonal con elementos generales $v_j = m_j \pi (x_j) \left[1 - \pi (x_j) \right]$ . Denote $m_j$ como los grupos de individuos con el mismo valor de covariable $x = x_j$ . Puede obtener el $j^{th}$ elemento diagonal ( $h_j$ ) de la matriz del sombrero como $$h_j = m_j \pi (x_j) \left[1 - \pi (x_j) \right] x'_j (X'VX)^{-1}x'_j$$ Entonces la suma de $h_j$ da el número de parámetros como en la regresión lineal. Ahora a su pregunta:

La interpretación de los valores de apalancamiento en la matriz del sombrero depende de la probabilidad estimada $\pi$ . Si $0.1 < \pi < 0.9$ En el caso de la regresión lineal, se pueden interpretar los valores de apalancamiento de forma similar a los del caso de la regresión lineal, es decir, que estar más lejos de la media da valores más altos. Si se encuentra en los extremos de la distribución de probabilidad, estos valores de apalancamiento podrían dejar de medir la distancia en el mismo sentido. Esto se muestra en la siguiente figura tomada de Hosmer y Lemeshow (2000):

enter image description here

En este caso, los valores más extremos del espacio de covariables pueden dar el menor apalancamiento, lo que es contrario al caso de la regresión lineal. La razón es que el apalancamiento en la regresión lineal es una función monótona, lo que no es cierto para la regresión logística no lineal. Hay una parte monotónica creciente en la formulación anterior de los elementos diagonales de la matriz del sombrero que representa la distancia a la media. Es decir, la $x'_j (X'VX)^{-1}x'_j$ parte, que podrías mirar si sólo te interesa la distancia en sí. La mayoría de las estadísticas de diagnóstico para las regresiones logísticas utilizan la palanca completa $h_j$ por lo que esta parte monótona separada rara vez se considera por sí sola.

Si quieres profundizar en este tema, echa un vistazo al artículo de Pregibon (1981), que derivó la matriz logística del sombrero, y al libro de Hosmer y Lemeshow (2000).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X