19 votos

¿Qué diagnósticos pueden validar el uso de una determinada familia de MLG?

Esto parece tan elemental, pero siempre me bloqueo en este punto

La mayoría de los datos que trato son no normales, y la mayoría de los análisis se basan en una estructura GLM. Para mi análisis actual, tengo una variable de respuesta que es la "velocidad al caminar" (metros/minuto). Me resulta fácil identificar que no puedo utilizar OLS, pero entonces, ¡tengo una gran incertidumbre a la hora de decidir qué familia (Gamma, Weibull, etc.) es la adecuada!

Utilizo Stata y miro los diagnósticos como los residuos y la heteroscedasticidad, los residuos frente a los valores ajustados, etc.

Soy consciente de que los datos de recuento pueden adoptar la forma de una tasa (por ejemplo, las tasas de incidencia) y he utilizado la gamma (el análogo a los modelos binomiales negativos discretos sobredispersos), pero me gustaría tener una "pistola humeante" que dijera SÍ, TIENES LA FAMILIA CORRECTA. ¿Es la única y mejor manera de hacerlo el mirar los residuos estandarizados frente a los valores ajustados? Me gustaría utilizar un modelo mixto para tener en cuenta alguna jerarquía en los datos, pero primero tengo que determinar qué familia describe mejor mi variable de respuesta.

Se agradece cualquier ayuda. Se agradece especialmente el lenguaje Stata.

14voto

jasonmray Puntos 1303

Tengo algunos consejos :

(1) La comparación de los residuos con los ajustes no siempre es tan obvia, por lo que es bueno estar familiarizado con los diagnósticos de determinados modelos. En los modelos de regresión logística, por ejemplo, el estadístico de Hosmer-Lemeshow se utiliza para evaluar la bondad del ajuste; los valores de apalancamiento tienden a ser pequeños cuando las probabilidades estimadas son muy grandes, muy pequeñas o casi iguales; & así sucesivamente.

(2) A veces, una familia de modelos puede verse como un caso especial de otra, por lo que puede utilizar una prueba de hipótesis sobre un parámetro para ayudarle a elegir. Por ejemplo, exponencial frente a Weibull.

(3) El criterio de información de Akaike es útil para elegir entre diferentes modelos, lo que incluye la elección entre diferentes familias.

(4) El conocimiento teórico/empírico sobre lo que estás modelando reduce el campo de los modelos plausibles.

Pero no hay una forma automática de encontrar la familia "correcta"; los datos de la vida real pueden proceder de distribuciones tan complicadas como se quiera, y la complejidad de los modelos que merece la pena intentar ajustar aumenta con la cantidad de datos que se tienen. Esto forma parte del dictamen de Box de que ningún modelo es verdadero, pero algunos son útiles.

En relación con el comentario de @gung: parece que la prueba de Hosmer-Lemeshow, utilizada habitualmente, es (a) sorprendentemente sensible a la elección de los intervalos y (b) generalmente menos potente que otras pruebas frente a algunas clases relevantes de hipótesis alternativas. Eso no quita el punto (1): también es bueno estar al día.

3voto

Sean Hanley Puntos 2428

Puede que le resulte interesante leer el viñeta (manual de introducción) para el paquete R fitdistrplus . Reconozco que usted prefiere trabajar en Stata, pero creo que la viñeta será lo suficientemente autoexplicativa como para que pueda obtener algunas ideas sobre el proceso de inferir familias distributivas a partir de los datos. Probablemente podrá implementar algunas de las ideas en Stata a través de su propio código. En particular, creo que el gráfico de Cullen y Frey, si es / puede ser implementado en Stata, puede ser útil para usted.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X