Nunca he visto hacer esto, y dudo que otras personas tampoco. Por lo general, en este sitio se obtienen respuestas informadas en un par de horas después de publicar algo. Ha pasado un día, y nada.
Mi idea es la siguiente: si quieres decirle al modelo que algunos valores son más fiables que otros, utiliza ponderaciones. Si rebajas la ponderación de los valores en los que dudas de la exactitud de los datos, el modelo aceptará básicamente un ajuste peor en ese punto, que es lo que quieres.
Ejemplo: suponga que tiene un conjunto de covariables muy "casado" para alguien codificado como "soltero" en el conjunto de datos dudosos. Sin ponderaciones, el algoritmo de ajuste podría distorsionar las estimaciones de los parámetros para obtener algún tipo de ajuste. Con ponderaciones, el algoritmo no tiene que esforzarse tanto. En efecto, le permite tener residuos más grandes cuando no confía en los datos.
Si quieres seguir con tu primera idea de sustituir los datos por probabilidades, yo repetiría: estimaría las probabilidades de que alguien esté casado o no, luego ajustaría el modelo con mis mejores conjeturas, luego volvería atrás y ajustaría las estimaciones. Se trata de un enfoque EM. Por tanto, no sustituiría 0 y 1 por 0,8 y 0,2 en el ajuste. Utilizaría 1 y 0 según las probabilidades fueran menores o mayores que 0,5, pero luego volvería atrás y ajustaría las probabilidades en función de la falta de ajuste en esos puntos.
Si nos fijamos en lo que ocurre en un modelo de regresión logística, las matemáticas implicadas realmente esperan que los datos vayan a ser 0 ó 1. Creo que deberías ceñirte a eso. Mi consejo se reduce a utilizar ponderaciones o estimar el estado civil a partir del resto de los datos.
0 votos
¿Tiene alguna medida sobre el grado de inexactitud de su segundo expediente?
0 votos
Aún no lo he hecho, pero podría mirar con qué frecuencia coinciden las dos fuentes, cuando hay datos de ambas. Sólo quiero estar seguro de que es algo razonable.
2 votos
¡Bienvenido a nuestra web! Tu declaración demuestra que puedes estar oxidado en algo y aun así hacer una buena pregunta :-) Sin embargo, te sugiero que tu pregunta sea un poco más abierta (y para ello he adjuntado el archivo datos-imputación tag): en lugar de pedirnos nuestra opinión sobre un procedimiento concreto que se le ocurra, ¿por qué no nos pide sugerencias sobre cómo abordar su problema de datos ausentes? Eso, a su vez, sugiere que podría proporcionar información adicional sobre el propósito de su análisis.