Yo soy el modelado de Predicción de la Diabetes mediante Regresión Logística. El conjunto de datos utilizado es el Behavioral Risk Factor Surveillance System (BRFSS) de el Centro para el Control de Enfermedades (CDC). Una de las variables independientes es la Presión Arterial Alta. Es categórica con los siguientes niveles de 'Sí', 'No', 'no sabe/no respondió'. Debo quitar esas filas con 'no sabe/no respondió", mientras que la construcción de la modelo? ¿Qué diferencia hace para mantener o eliminar las filas de la modelo?
Respuestas
¿Demasiados anuncios?Me estaba preguntando acerca de exactamente la misma pregunta cuando se analizan las últimas Nacional de alta del Hospital de la Encuesta de datos. Varias variables tienen una considerable falta de valores, tales como el estado civil y el tipo de procedimiento. Este problema llegó a mi atención debido a que estas categorías se presentó con una fuerte (y significativo) efectos en la mayoría de los análisis de regresión logística yo estaba corriendo.
Uno tiende a preguntarse por qué un código que falta es dado. En el caso del estado civil, por ejemplo, es posible que la ausencia de esta información podría estar relacionado con factores importantes tales como el estatus socioeconómico o el tipo de enfermedad. En su caso, de la presión arterial alta, debemos preguntarnos ¿por qué el valor de no ser conocido o rechazado? Esto podría estar relacionado con las prácticas en la institución (tal vez reflejando lax de los procedimientos) o incluso a los individuos (tales como las creencias religiosas). Estas características a su vez podría estar asociada con la diabetes. Por lo tanto, parece prudente seguir como usted tiene, en lugar de código de estos valores como falta (con la exclusión de ellos, desde el análisis completo) o intentar imputar los valores (lo que, efectivamente, las máscaras de la información que proporcionan y podría sesgar los resultados). Realmente no es más difícil de hacer: usted sólo tiene que asegurarse de que esta variable se trata como categórica y usted obtendrá una mayor coeficiente de la regresión de salida. Además, sospecho que el BRFSS conjuntos de datos son lo suficientemente grandes que usted no tiene que preocuparse acerca de potencia.
Primero tienes que pensar sobre si los datos que faltan, faltan completamente al azar (MCAR), falta al azar (MAR) falta o no al azar (MNAR), eliminación (en otras palabras completas-análisis de caso) pueden falsear los resultados. Las alternativas son el inverso de la probabilidad de ponderación, varios de imputación, el completo método de probabilidad y doblemente métodos robustos. Varios de imputación con el encadenado de las ecuaciones (RATONES) si a menudo la manera más fácil de ir.
¿Tiene usted alguna razón para pensar que los sujetos de estudio con diabetes eran más o menos probable que terminan con el DK/R respuesta? Si no es así (y yo estaría muy sorprendido al saber que hiciste), incluyendo este predictor en el modelo w/o exclusión de estos casos va a resultar en ruido. Es decir, usted va a terminar con menos precisión en la evaluación de cómo el "sí" o "no" influye en la probabilidad estimada de diabetes (porque vas a estar tratando de modelo de la influencia de "sí" o "no" frente al azar DK/R respuestas en lugar de sólo "sí" o "no"). La más sencilla es la opción para excluir los casos con DK/R respuestas. Suponiendo que su "sí/no", las respuestas fueron de hecho en falta al azar, excluyendo de ellos no sesgo de la estimación de la influencia de "sí" o "no". Sin embargo, ese enfoque reducirá el tamaño de la muestra y por lo tanto reducir la potencia estadística con respecto al resto de los predictores. Si usted tiene un montón de DK/R en esta variable, usted podría querer imputar "sí"/"no" respuestas múltiples de la imputación (posiblemente la mayoría, tal vez sólo defendible de la falta de valor de la imputación de la estrategia).