5 votos

pvalores de los coeficientes glm y de los residuos con distribución de cola pesada

He visto este pero todavía tengo algunas preguntas adicionales. Tengo un modelo de regresión lineal ordinaria con más de 300 predictores (que representan diferentes condiciones). Quiero saber qué condiciones tienen un efecto positivo en el resultado. Así que miro los valores p y selecciono los que están por debajo de 0,01 (después de corregir las pruebas múltiples) Tengo 300 coeficientes y una s Utilicé la función de familia gaussiana por defecto. tamaño de la muestra de 1200 con al menos 3 df para cada término).

Pero después de construir el modelo y mirar los residuos. Veo que son de cola pesada. ¿Qué significa esto para las estimaciones del error estándar de los coeficientes? ¿Son demasiado conservadoras (lo que es seguro) o demasiado liberales (cambio de recoger más falsos positivos)?

Aquí se muestran los gráficos de la salida de glm. enter image description here

0 votos

¿qué familia utilizó?

0 votos

@Glen_b Familia gaussiana y función de enlace indenty.

0 votos

Así que... ¿por qué no decir que ajustó "regresión lineal ordinaria"? Mucho menos ambiguo que "GLM".

2voto

Łukasz Bownik Puntos 2170

El error estándar de los coeficientes depende de la distribución de las observaciones. Tiene razón en preocuparse.

Usted depende de la Teorema del límite central para decir que la distribución de los coeficientes es normal. Se requiere una media y una varianza definidas. Si sus observaciones proceden de una distribución de pareto generalizada, o de alguna otra distribución de colas profundamente pesadas, es posible que no se cumplan las condiciones.

0 votos

Sí, entonces qué significaría eso para la interpretación del error estándar del coeficiente en mi caso. ¿Son demasiado grandes, demasiado pequeños o no es posible decirlo?

1 votos

Estrictamente hablando, creo que es imposible decirlo, si el CLT no se aplica, sus coeficientes se toman de una distribución desconocida, no se puede decir que sean significativos. En la acción, esto coincide con que son "demasiado pequeños". La varianza de tus coeficientes puede ser en realidad infinita, en cualquier caso, yo no concluiría que tienes coeficientes significativos no nulos.

1 votos

Hoy mismo he hablado con un estadístico y me ha intentado convencer de que los residuos están realmente distribuidos en t y que los SE están distribuidos normalmente. La conclusión a la que ha llegado es que, al ver el gráfico qqplot de arriba, parecía bastante bueno. ¿Crees que tiene sentido lo que afirma?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X