¿Sería ir demasiado lejos afirmar que valida mi elección de distribución?
Depende de lo que se entienda por "validar" exactamente, pero yo diría que "sí, eso va demasiado lejos" de la misma manera que no se puede decir realmente "el nulo se demuestra que es verdadero", (especialmente con los nulos puntuales, pero al menos en algún sentido más general). Sólo se puede decir realmente "bueno, no tenemos pruebas sólidas de que sea falso". Pero en cualquier caso no esperamos que nuestros modelos sean perfectos, son modelos . Lo que importa, como dijeron Box & Draper, es " ¿cuán equivocados tienen que estar para no ser útiles? "
Cualquiera de estas dos frases anteriores:
Esto parece sugerir (para mí) que la elección de una distribución gaussiana era bastante razonable. O, al menos, que los residuos son coherentes con la distribución que utilicé en mi modelo.
describen con mucha más precisión lo que indican sus diagnósticos -- no es que un modelo gaussiano con enlace logarítmico fuera a la derecha -- sino que era razonable, o consistente con los datos.
Elegí una función de enlace logarítmico porque mi variable de respuesta es siempre positiva, pero me gustaría tener algún tipo de confirmación de que fue una buena elección.
Si sabes que debe ser positivo entonces su media debe ser positiva. Es sensato elegir un modelo que sea al menos consistente con eso. No sé si es un buena (podría haber opciones mucho mejores), pero es algo razonable; podría ser mi punto de partida. [Sin embargo, si la variable en sí es necesariamente positiva, mi primer pensamiento sería Gamma con enlace logarítmico, en lugar de Gauss. "Necesariamente positiva" sugiere tanto la asimetría como la varianza que cambia con la media].
P2: ¿Existe alguna prueba, como la comprobación de los residuos para la elección de la distribución, que pueda apoyar mi elección de la función de enlace?
Parece que no te refieres a "prueba" como "prueba de hipótesis formal", sino como "comprobación de diagnóstico".
En cualquiera de los casos, la respuesta es que sí, los hay.
Una prueba de hipótesis formal es la de Pregibon Prueba de bondad del enlace [1].
Se basa en incrustar la función de enlace en una familia Box-Cox para hacer una prueba de hipótesis del parámetro Box-Cox.
Véase también el breve análisis de la prueba de Pregibon en Breslow (1996)[2] ( ver p 14 ).
Sin embargo, le aconsejo encarecidamente que siga la vía del diagnóstico. Si quieres comprobar una función de enlace, básicamente estás afirmando que en la escala de enlace, $\eta=g(\mu)$ es lineal en el $x$ que se encuentran en el modelo, por lo que una evaluación básica podría ser un gráfico de los residuos frente a los predictores. Por ejemplo,
residuos de trabajo $r^W_i=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)$
(por la que yo me inclinaría para esta evaluación), o quizás observando las desviaciones de la linealidad en los residuos parciales, con un gráfico para cada predictor (véase, por ejemplo, Hardin y Hilbe, Modelos lineales generalizados y extensiones, 2ª ed. sección 4.5.4 p54, para la definición),
$\quad r^T_{ki}=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)+x_{ik}\hat{\beta}_k$
$\qquad\:=r^W_i+x_{ik}\hat{\beta}_k$
En los casos en los que los datos admiten la transformación por la función de enlace, se podría buscar la linealidad de la misma manera que con la regresión lineal (aunque podría tener asimetría izquierda y posiblemente heteroscedasticidad).
En el caso de los predictores categóricos, la elección de la función de enlace es más una cuestión de conveniencia o interpretabilidad, el ajuste debería ser el mismo (por lo que no es necesario evaluarlo).
También podría basar un diagnóstico en el enfoque de Pregibon.
No se trata de una lista exhaustiva; puede encontrar otros diagnósticos discutidos.
[Dicho esto, estoy de acuerdo con la apreciación de gung de que la elección de la función de enlace debería basarse inicialmente en cosas como consideraciones teóricas, siempre que sea posible].
Véase también parte del debate en este puesto que es, al menos en parte, relevante.
[1]: Pregibon, D. (1980),
"Pruebas de bondad de enlace para modelos lineales generalizados".
Revista de la Real Sociedad de Estadística. Serie C (Estadística Aplicada) ,
Vol. 29, No. 1, pp. 15-23.
[2]: Breslow N. E. (1996),
"Modelos lineales generalizados: Comprobación de los supuestos y refuerzo de las conclusiones",.
Estadística aplicada 8 , 23-41.
pdf
2 votos
Q1. Podrías probar otras distribuciones y ver si tienen mejor rendimiento. Q2. La elección de un enlace logarítmico para garantizar predicciones positivas no me parece arbitraria. Es un razonamiento. Pero a su vez se podría comprobar si se obtendrían predicciones negativas con el enlace de identidad y los datos que se tienen. En resumen: no se puede tener claro que otros modelos no serían mejores hasta que no se hayan probado.
1 votos
Gracias por la respuesta, @Nick. Me preocupaba que fuera simplemente un caso de chupar y ver, como dices. No me preocupa tanto que sea el mejor modelo necesariamente, sólo que los supuestos pueden ser justificados. Una idea con la que he estado jugando es trazar mis observaciones, $Y$ contra la transformada exponencial del predictor lineal, $\exp(\eta)$ . Presumiblemente, cuanto más cerca estén los puntos de la línea 1:1, mejor será la suposición de una función de enlace logarítmica. Además, podría cuantificar esto con un $R^2$ para la línea 1:1. (No soy un estadístico, así que no estoy seguro de lo irrisorio de estos tópicos).
2 votos
Yo tampoco soy estadístico, pero he utilizado gráficos similares para evaluar modelos. Véase, por ejemplo stata-journal.com/sjpdf.html?articlenum=gr0009 También he utilizado un $R^2$ analógica como medida descriptiva sin sentirse demasiado culpable por ello: véase stats.stackexchange.com/questions/68066/ para obtener algunos detalles.