24 votos

GLM: verificando una elección de distribución y función de enlace

Tengo un modelo lineal generalizado que adopta una distribución gaussiana y una función de enlace logarítmico. Después de ajustar el modelo, compruebo los residuos: Gráfico QQ, residuos vs valores predichos, histograma de residuos (reconociendo que se necesita la debida precaución). Todo se ve bien. Esto parece sugerir (para mí) que la elección de una distribución Gaussiana fue bastante razonable. O, al menos, que los residuos son consistentes con la distribución que usé en mi modelo.

Q1 : ¿Sería ir demasiado lejos afirmar que valida mi elección de distribución?

Elegí una función de enlace logarítmico porque mi variable de respuesta siempre es positiva, pero me gustaría tener algún tipo de confirmación de que fue una buena elección.

Q2 : ¿Hay alguna prueba, como comprobar los residuos para la elección de la distribución, que pueda apoyar mi elección de la función de enlace? (Elegir una función de enlace me parece un poco arbitrario, ya que las únicas pautas que puedo encontrar son bastante vagas y manuales, presumiblemente por una buena razón).

2 votos

Q1. Podrías probar otras distribuciones y ver si tienen mejor rendimiento. Q2. La elección de un enlace logarítmico para garantizar predicciones positivas no me parece arbitraria. Es un razonamiento. Pero a su vez se podría comprobar si se obtendrían predicciones negativas con el enlace de identidad y los datos que se tienen. En resumen: no se puede tener claro que otros modelos no serían mejores hasta que no se hayan probado.

1 votos

Gracias por la respuesta, @Nick. Me preocupaba que fuera simplemente un caso de chupar y ver, como dices. No me preocupa tanto que sea el mejor modelo necesariamente, sólo que los supuestos pueden ser justificados. Una idea con la que he estado jugando es trazar mis observaciones, $Y$ contra la transformada exponencial del predictor lineal, $\exp(\eta)$ . Presumiblemente, cuanto más cerca estén los puntos de la línea 1:1, mejor será la suposición de una función de enlace logarítmica. Además, podría cuantificar esto con un $R^2$ para la línea 1:1. (No soy un estadístico, así que no estoy seguro de lo irrisorio de estos tópicos).

2 votos

Yo tampoco soy estadístico, pero he utilizado gráficos similares para evaluar modelos. Véase, por ejemplo stata-journal.com/sjpdf.html?articlenum=gr0009 También he utilizado un $R^2$ analógica como medida descriptiva sin sentirse demasiado culpable por ello: véase stats.stackexchange.com/questions/68066/ para obtener algunos detalles.

23voto

AdamSane Puntos 1825

¿Sería ir demasiado lejos afirmar que valida mi elección de distribución?

Depende de lo que se entienda por "validar" exactamente, pero yo diría que "sí, eso va demasiado lejos" de la misma manera que no se puede decir realmente "el nulo se demuestra que es verdadero", (especialmente con los nulos puntuales, pero al menos en algún sentido más general). Sólo se puede decir realmente "bueno, no tenemos pruebas sólidas de que sea falso". Pero en cualquier caso no esperamos que nuestros modelos sean perfectos, son modelos . Lo que importa, como dijeron Box & Draper, es " ¿cuán equivocados tienen que estar para no ser útiles? "

Cualquiera de estas dos frases anteriores:

Esto parece sugerir (para mí) que la elección de una distribución gaussiana era bastante razonable. O, al menos, que los residuos son coherentes con la distribución que utilicé en mi modelo.

describen con mucha más precisión lo que indican sus diagnósticos -- no es que un modelo gaussiano con enlace logarítmico fuera a la derecha -- sino que era razonable, o consistente con los datos.

Elegí una función de enlace logarítmico porque mi variable de respuesta es siempre positiva, pero me gustaría tener algún tipo de confirmación de que fue una buena elección.

Si sabes que debe ser positivo entonces su media debe ser positiva. Es sensato elegir un modelo que sea al menos consistente con eso. No sé si es un buena (podría haber opciones mucho mejores), pero es algo razonable; podría ser mi punto de partida. [Sin embargo, si la variable en sí es necesariamente positiva, mi primer pensamiento sería Gamma con enlace logarítmico, en lugar de Gauss. "Necesariamente positiva" sugiere tanto la asimetría como la varianza que cambia con la media].

P2: ¿Existe alguna prueba, como la comprobación de los residuos para la elección de la distribución, que pueda apoyar mi elección de la función de enlace?

Parece que no te refieres a "prueba" como "prueba de hipótesis formal", sino como "comprobación de diagnóstico".

En cualquiera de los casos, la respuesta es que sí, los hay.

Una prueba de hipótesis formal es la de Pregibon Prueba de bondad del enlace [1].

Se basa en incrustar la función de enlace en una familia Box-Cox para hacer una prueba de hipótesis del parámetro Box-Cox.

Véase también el breve análisis de la prueba de Pregibon en Breslow (1996)[2] ( ver p 14 ).

Sin embargo, le aconsejo encarecidamente que siga la vía del diagnóstico. Si quieres comprobar una función de enlace, básicamente estás afirmando que en la escala de enlace, $\eta=g(\mu)$ es lineal en el $x$ que se encuentran en el modelo, por lo que una evaluación básica podría ser un gráfico de los residuos frente a los predictores. Por ejemplo,

residuos de trabajo $r^W_i=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)$

(por la que yo me inclinaría para esta evaluación), o quizás observando las desviaciones de la linealidad en los residuos parciales, con un gráfico para cada predictor (véase, por ejemplo, Hardin y Hilbe, Modelos lineales generalizados y extensiones, 2ª ed. sección 4.5.4 p54, para la definición),

$\quad r^T_{ki}=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)+x_{ik}\hat{\beta}_k$

$\qquad\:=r^W_i+x_{ik}\hat{\beta}_k$

En los casos en los que los datos admiten la transformación por la función de enlace, se podría buscar la linealidad de la misma manera que con la regresión lineal (aunque podría tener asimetría izquierda y posiblemente heteroscedasticidad).

En el caso de los predictores categóricos, la elección de la función de enlace es más una cuestión de conveniencia o interpretabilidad, el ajuste debería ser el mismo (por lo que no es necesario evaluarlo).

También podría basar un diagnóstico en el enfoque de Pregibon.

No se trata de una lista exhaustiva; puede encontrar otros diagnósticos discutidos.

[Dicho esto, estoy de acuerdo con la apreciación de gung de que la elección de la función de enlace debería basarse inicialmente en cosas como consideraciones teóricas, siempre que sea posible].

Véase también parte del debate en este puesto que es, al menos en parte, relevante.

[1]: Pregibon, D. (1980),
"Pruebas de bondad de enlace para modelos lineales generalizados".
Revista de la Real Sociedad de Estadística. Serie C (Estadística Aplicada) ,
Vol. 29, No. 1, pp. 15-23.

[2]: Breslow N. E. (1996),
"Modelos lineales generalizados: Comprobación de los supuestos y refuerzo de las conclusiones",.
Estadística aplicada 8 , 23-41.
pdf

19voto

Sean Hanley Puntos 2428
  1. Esta es una variante de la pregunta frecuente sobre si se puede afirmar la hipótesis nula. En su caso, la nula sería que los residuos son gaussianos, y la inspección visual de sus gráficos (gráficos qq, histogramas, etc.) constituye la "prueba". (Para una visión general de la cuestión de la afirmación de la nula, puede ayudar a leer mi respuesta aquí: ¿Por qué los estadísticos dicen que un resultado no significativo significa que "no se puede rechazar la nula" en lugar de aceptar la hipótesis nula? ) En tu caso concreto, puedes decir que los gráficos muestran que tus residuos son consistentes con tu suposición de normalidad, pero no "validan" la suposición.

  2. Puede ajustar su modelo utilizando diferentes funciones de enlace y compararlas, pero no hay una prueba de una función de enlace aislada (esto es evidentemente incorrecto, ver @Glen_b's réponse ). En mi respuesta a Diferencia entre los modelos logit y probit (que puede valer la pena leer, aunque no es exactamente lo mismo), sostengo que las funciones de enlace deben elegirse en función de:

    1. Conocimiento de la distribución de la respuesta,
    2. Consideraciones teóricas, y
    3. Ajuste empírico a los datos.

    En ese marco, el enlace canónico para un modelo gaussiano sería el enlace de identidad. En este caso usted rechazó esa posibilidad, presumiblemente por razones teóricas. Sospecho que su pensamiento era que $Y$ no puede tomar valores negativos (nótese que "no pasa a" no es lo mismo). Si es así, el registro es una opción razonable a-priori, pero no sólo impide $Y$ de ser negativo, también induce una forma específica a la relación curvilínea. Un gráfico estándar de los residuos frente a los valores ajustados (quizás con un ajuste de Loess superpuesto) le ayudará a identificar si la curvatura intrínseca de sus datos coincide razonablemente con la curvatura específica impuesta por el enlace logarítmico. Como ya he mencionado, también puedes probar cualquier otra transformación que cumpla los criterios teóricos que desees y comparar los dos ajustes directamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X