3 votos

¿Qué causa una predicción perfecta pero sin predictores significativos en la regresión logística?

Quiero hacer una regresión logística con R.

Tengo 18 covariables continuas y una muestra que consta de 100 observaciones.

Cuando introduzco todas las covariables en el glm() ninguno de ellos es significativo, ¡pero el modelo predice perfectamente el resultado en los datos de prueba!

Mis preguntas son:

  1. ¿Es el tamaño de la muestra lo suficientemente grande para ejecutar glm() con esta cantidad de covariables?
  2. ¿Cuáles podrían ser otras causas del problema?
  3. ¿Cómo puedo hacer funcionar correctamente un modelo de este tipo?

5voto

dan90266 Puntos 609

No ha indicado el número de eventos y no eventos. Una regla general es que para utilizar la estimación de máxima verosimilitud ordinaria (es decir, sin contracción - penalización) se requiere un número de eventos y de no eventos 15 veces mayor que el número de predictores candidatos. En su caso, está lejos de tener un tamaño de muestra adecuado, incluso si $Y$ se reparte al 50%. Sugiero hacer una reducción de datos (enmascarada a $Y$ (por ejemplo, agrupación de variables, componentes principales o análisis de redundancia) o ajustando la lista completa de variables y resolviendo la cantidad de contracción necesaria para obtener un modelo fiable. Puede ver estudios de casos de estos métodos en mis folletos en http://biostat.mc.vanderbilt.edu/CourseBios330 .

Los métodos ordinarios de selección de variables no penalizados no abordan de ninguna manera este problema correctamente.

1voto

Sean Hanley Puntos 2428

Ayudaría si pudieras proporcionar alguna información adicional en respuesta a los comentarios y al punto de @Frank Harrell con respecto a cuántos éxitos y fracasos tienes.

Mi primera conjetura sería que usted tiene algún multicolinealidad es decir, sus covariables continuas están correlacionadas entre sí. El efecto de esto es que, aunque las estimaciones de las betas siguen siendo potencialmente insesgadas, los errores estándar estarán inflados. Esto significa que serán menos "significativas", pero todavía pueden hacer un buen trabajo de predicción de la respuesta (tenga en cuenta el buen punto de @Roland sobre sobreajuste Sin embargo, no es así.)

Teniendo en cuenta su N y el número de covariables que tiene, es posible que quiera tener cuidado con cuasi-separación también.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X