6 votos

Faltan datos que simplemente no pueden existir

He leído el 80% de los datos que faltan en una sola variable y comprender el enfoque para tratar con los datos que faltan, que simplemente no puede existir para 1 variable.

Estoy tratando de generalizar este hasta 2 o más variables, donde los diferentes subconjuntos de la muestra tienen diferentes conjuntos de variables en las que los datos pueden existir. Por simplicidad, empecé con 2 variables, de las cuales hay cuatro subconjuntos de la población:

  1. El subconjunto donde ambos pueden existir variables
  2. El subconjunto donde la primera variable puede existir
  3. El subconjunto donde la segunda variable puede existir
  4. El subconjunto donde ni la variable puede existir

Mi primer pensamiento fue simplemente crear:

a) una variable ficticia para indicar si la variable 1 es falta o no falta

b) una variable ficticia para indicar si la variable 2 es falta o no falta

Sobre el papel, esto parece tener sentido: I obtener cuatro diferentes intersecciones de los cuatro subconjuntos. Sin embargo, estoy preocupado por lo que sucede cuando me imputar valores de 0 para los valores que faltan para las 2 variables. Más específicamente, se va a ajustar la correlación entre las 2 variables y por lo tanto ajustar las estimaciones de los parámetros.

Es allí una manera de superar esta o wiil yo simplemente debe ejecutar regresiones separadas para escenarios con 2 o más variables en las que faltan datos, simplemente no puede existir?

0voto

NickB2014 Puntos 278

Así que me senté y trabajado a través de esto. Pensé que iba a compartir la respuesta que me costó encontrar una fuente que trabajó a través de este y la pareja de upvotes sugieren interés en la solución.

En primer lugar, permite configurar un escenario:

1 variable dependiente: Y

2 variables: X1 Y X2

X1 y X2 están correlacionados

Ambos tienen un subconjunto de observaciones en las que los datos no existen (vamos a llamar a esta 'falta' por simplicidad)

Este es tal que no existe 2 o más observaciones que X1 Y X2 tanto no puede existir.

Hay cuatro combinaciones:

X1 & X2 are both avaliable

X1 is missing, X2 isn't

X2 is missing, X1 isn't

X1 and X2 are both missing

Podemos ejecutar cuatro regresiones a tomar cada combinación. Esto nos daría estimaciones válidas. No incluyendo las observaciones en las que tienen una 'falta' de observación no es mala en cualquier capacidad, como las observaciones que simplemente no tienen ninguna información.

Sin embargo, queremos que se ejecute todos los cuatro dentro de una regresión. Para ello, tenemos que ser conscientes de dos cosas:

  1. Tenemos que ser capaces de generar cuatro diferentes intercepta dependiendo de las cuatro combinaciones de arriba.
  2. El cambio de 'desaparecid @ s' 0s ajustar los coeficientes estimados de X1 y X2. Por lo tanto, tenemos que ser capaces de regular el coeficiente de las estimaciones son correctas para situaciones en las que al menos uno de X1 y X2 están presentes.

Cómo?

Para lograr los puntos anteriores, de 3 variables ficticias (denotado por D1, D2 y D3, respectivamente) deben ser usados para evitar la incorrecta coeficientes:

  1. D1 toma el valor 1 si X1 es falta Y X2 no es (0 en caso contrario)
  2. D2 toma el valor 1 si X2 es falta Y X1 no es (0 en caso contrario)
  3. D3 toma el valor 1 si X1 y X2 son dos NO faltan (0 en caso contrario)

A continuación, necesitamos interactuar D1 con X2 + D2 con X1. En total tenemos 5 variables independientes, junto a la intersección, X1 y X2.

D1, D2 y D3 regular la intersección dependiendo de si

a) X1 y X2 son no faltan,

b) X1 y X2 son los que faltan,

c) X1 falta,

d) X2 falta

Las interacciones medicamentosas, D1*X2 y D2*X1 regulan los coeficientes de X1 y X2 tales que:

a) Si X1 es falta Y X2 no es, D1*X2 regula el coeficiente de X2, similar a la ejecución de una regresión de Y en la intercepción de y X2

b) Si X2 es falta Y X1 no es, D2*X1 regula el coeficiente de X1, similar a la ejecución de una regresión de Y en la intercepción y X1.

La inclusión de las 5 variables adicionales que te permiten lograr el coeficiente y la intersección de las estimaciones para las cuatro combinaciones dentro de una regresión.

La ampliación de la aproximación de hasta 3 o más variables

Como el número de variables con valores perdidos aumentar, el número de variables adicionales necesarios también aumenta. En el escenario de 3 variables, por ejemplo, suponiendo que todas las seis combinaciones de los datos faltantes pueden existir 2 o más observaciones (así, por ejemplo, cuatro de observación faltan X1 y X2, pero tienen X3 presente; seis observaciones faltan X2 y X3, pero tienen X1 presente; cinco observaciones faltan X1, X2 y X3) un total de 11 variables adicionales son necesarios para crear el coeficiente y la intersección de las estimaciones.

Es fácil ver que el enfoque se vuelve más unweildy en escenarios de 4+ variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X