6 votos

Creación de valores difusos para datos binarios

Estoy haciendo una regresión logística en la que mi variable dependiente es si una persona posee o no un determinado producto.

Entre las variables del modelo figura un indicador del estado civil, 1 para casado, 0 para no casado. Se trata de datos fiables extraídos directamente de una solicitud rellenada por el cliente, por ejemplo. En muchos casos, los datos faltan (quizá la persona nunca rellenó una solicitud), pero hay una segunda fuente de datos que es algo exacta, pero no del todo. ¿Tendría sentido completar los valores que faltan, no con 0 o 1, sino con algo intermedio? Por ejemplo, si es probable que estén casados, basándome en la segunda fuente de datos, les doy 0,8 o 0,2 si es probable que no estén casados.

0 votos

¿Tiene alguna medida sobre el grado de inexactitud de su segundo expediente?

0 votos

Aún no lo he hecho, pero podría mirar con qué frecuencia coinciden las dos fuentes, cuando hay datos de ambas. Sólo quiero estar seguro de que es algo razonable.

2 votos

¡Bienvenido a nuestra web! Tu declaración demuestra que puedes estar oxidado en algo y aun así hacer una buena pregunta :-) Sin embargo, te sugiero que tu pregunta sea un poco más abierta (y para ello he adjuntado el archivo datos-imputación tag): en lugar de pedirnos nuestra opinión sobre un procedimiento concreto que se le ocurra, ¿por qué no nos pide sugerencias sobre cómo abordar su problema de datos ausentes? Eso, a su vez, sugiere que podría proporcionar información adicional sobre el propósito de su análisis.

2voto

Awais Tariq Puntos 116

Nunca he visto hacer esto, y dudo que otras personas tampoco. Por lo general, en este sitio se obtienen respuestas informadas en un par de horas después de publicar algo. Ha pasado un día, y nada.

Mi idea es la siguiente: si quieres decirle al modelo que algunos valores son más fiables que otros, utiliza ponderaciones. Si rebajas la ponderación de los valores en los que dudas de la exactitud de los datos, el modelo aceptará básicamente un ajuste peor en ese punto, que es lo que quieres.

Ejemplo: suponga que tiene un conjunto de covariables muy "casado" para alguien codificado como "soltero" en el conjunto de datos dudosos. Sin ponderaciones, el algoritmo de ajuste podría distorsionar las estimaciones de los parámetros para obtener algún tipo de ajuste. Con ponderaciones, el algoritmo no tiene que esforzarse tanto. En efecto, le permite tener residuos más grandes cuando no confía en los datos.

Si quieres seguir con tu primera idea de sustituir los datos por probabilidades, yo repetiría: estimaría las probabilidades de que alguien esté casado o no, luego ajustaría el modelo con mis mejores conjeturas, luego volvería atrás y ajustaría las estimaciones. Se trata de un enfoque EM. Por tanto, no sustituiría 0 y 1 por 0,8 y 0,2 en el ajuste. Utilizaría 1 y 0 según las probabilidades fueran menores o mayores que 0,5, pero luego volvería atrás y ajustaría las probabilidades en función de la falta de ajuste en esos puntos.

Si nos fijamos en lo que ocurre en un modelo de regresión logística, las matemáticas implicadas realmente esperan que los datos vayan a ser 0 ó 1. Creo que deberías ceñirte a eso. Mi consejo se reduce a utilizar ponderaciones o estimar el estado civil a partir del resto de los datos.

0 votos

Gracias Placidia. Cuando vuelva a esto a principios de la semana que viene estaré presionado por el tiempo así como estirando mis neuronas de vuelta a mi nivel de postgrado en econometría, así que quiero mantener esto tan simple (pero tan preciso) como sea posible. Creo que después de hurgar en los datos contaré los datos menos fiables igual que los buenos o simplemente no los utilizaré. De hecho, ahora mismo no sé qué signo tendría el coeficiente del estado civil. Quizá tenga suerte y no sea significativo.

0 votos

Probablemente sea la forma más segura de hacerlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X