El tratamiento de 'no sabe/no respondió' los niveles de las variables categóricas

Question

El tratamiento de 'no sabe/no respondió' los niveles de las variables categóricas

Preguntado el 16 de Abril, 2011: Cuando se hizo la pregunta
1369 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Yo soy el modelado de Predicción de la Diabetes mediante Regresión Logística. El conjunto de datos utilizado es el Behavioral Risk Factor Surveillance System (BRFSS) de el Centro para el Control de Enfermedades (CDC). Una de las variables independientes es la Presión Arterial Alta. Es categórica con los siguientes niveles de 'Sí', 'No', 'no sabe/no respondió'. Debo quitar esas filas con 'no sabe/no respondió", mientras que la construcción de la modelo? ¿Qué diferencia hace para mantener o eliminar las filas de la modelo?

Preguntado el 16 de Abril, 2011 por robsoft

Answer 1

3 Respuestas

Answer 2

6voto

jldugger Puntos 7490

Me estaba preguntando acerca de exactamente la misma pregunta cuando se analizan las últimas Nacional de alta del Hospital de la Encuesta de datos. Varias variables tienen una considerable falta de valores, tales como el estado civil y el tipo de procedimiento. Este problema llegó a mi atención debido a que estas categorías se presentó con una fuerte (y significativo) efectos en la mayoría de los análisis de regresión logística yo estaba corriendo.

Uno tiende a preguntarse por qué un código que falta es dado. En el caso del estado civil, por ejemplo, es posible que la ausencia de esta información podría estar relacionado con factores importantes tales como el estatus socioeconómico o el tipo de enfermedad. En su caso, de la presión arterial alta, debemos preguntarnos ¿por qué el valor de no ser conocido o rechazado? Esto podría estar relacionado con las prácticas en la institución (tal vez reflejando lax de los procedimientos) o incluso a los individuos (tales como las creencias religiosas). Estas características a su vez podría estar asociada con la diabetes. Por lo tanto, parece prudente seguir como usted tiene, en lugar de código de estos valores como falta (con la exclusión de ellos, desde el análisis completo) o intentar imputar los valores (lo que, efectivamente, las máscaras de la información que proporcionan y podría sesgar los resultados). Realmente no es más difícil de hacer: usted sólo tiene que asegurarse de que esta variable se trata como categórica y usted obtendrá una mayor coeficiente de la regresión de salida. Además, sospecho que el BRFSS conjuntos de datos son lo suficientemente grandes que usted no tiene que preocuparse acerca de potencia.

Respondido el 16 de Abril, 2011 por jldugger (7490 Puntos )

Answer 3

2voto

pirho Puntos 1387

Primero tienes que pensar sobre si los datos que faltan, faltan completamente al azar (MCAR), falta al azar (MAR) falta o no al azar (MNAR), eliminación (en otras palabras completas-análisis de caso) pueden falsear los resultados. Las alternativas son el inverso de la probabilidad de ponderación, varios de imputación, el completo método de probabilidad y doblemente métodos robustos. Varios de imputación con el encadenado de las ecuaciones (RATONES) si a menudo la manera más fácil de ir.

Respondido el 16 de Abril, 2011 por pirho (1387 Puntos )

Answer 4

0voto

dmk38 Puntos 1066

¿Tiene usted alguna razón para pensar que los sujetos de estudio con diabetes eran más o menos probable que terminan con el DK/R respuesta? Si no es así (y yo estaría muy sorprendido al saber que hiciste), incluyendo este predictor en el modelo w/o exclusión de estos casos va a resultar en ruido. Es decir, usted va a terminar con menos precisión en la evaluación de cómo el "sí" o "no" influye en la probabilidad estimada de diabetes (porque vas a estar tratando de modelo de la influencia de "sí" o "no" frente al azar DK/R respuestas en lugar de sólo "sí" o "no"). La más sencilla es la opción para excluir los casos con DK/R respuestas. Suponiendo que su "sí/no", las respuestas fueron de hecho en falta al azar, excluyendo de ellos no sesgo de la estimación de la influencia de "sí" o "no". Sin embargo, ese enfoque reducirá el tamaño de la muestra y por lo tanto reducir la potencia estadística con respecto al resto de los predictores. Si usted tiene un montón de DK/R en esta variable, usted podría querer imputar "sí"/"no" respuestas múltiples de la imputación (posiblemente la mayoría, tal vez sólo defendible de la falta de valor de la imputación de la estrategia).

Respondido el 16 de Abril, 2011 por dmk38 (1066 Puntos )

El tratamiento de 'no sabe/no respondió' los niveles de las variables categóricas

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

El tratamiento de 'no sabe/no respondió' los niveles de las variables categóricas

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: