14 votos

Distinción entre la falta al azar (MAR) y la falta completamente al azar (MCAR)

Me han explicado estas dos cosas varias veces. Siguen cocinándome el cerebro. Missing Not at Random tiene sentido para ser, y Missing Completely at Random tiene sentido ... es el Missing at Random que no tanto.

¿Qué da lugar a datos que serían MAR pero no MCAR?

0 votos

¿Es su pregunta contestada por esta otra pregunta, ¿Hay alguna buena razón para el nombre "Desaparecido al azar"? ¿y los recursos que enumeran?

4 votos

@AndyW Para ser franco, no. Una discusión interesante sobre por qué el nombre es defectuoso, y un artículo que está al acecho detrás de un muro de suscripción.

23voto

Zizzencs Puntos 1358

Falta al azar (MAR) significa que la falta puede explicarse por variables sobre las que se dispone de información completa. No es una hipótesis comprobable, pero hay casos en los que es razonable frente a otros en los que no lo es.

Por ejemplo, las encuestas de opinión política. Mucha gente se niega a contestar. Si se asume que las razones por las que la gente se niega a contestar se basan enteramente en datos demográficos, y si se tienen esos datos demográficos de cada persona, entonces los datos son MAR. Se sabe que algunos de las razones por las que la gente se niega a contestar pueden basarse en datos demográficos (por ejemplo, las personas con ingresos tanto bajos como altos tienen menos probabilidades de contestar que las del medio), pero realmente no hay forma de saber si esa es la explicación completa.

Entonces, la pregunta pasa a ser "¿está suficientemente lleno?". A menudo, métodos como la imputación múltiple funcionan mejor que otros métodos siempre que los datos no estén muy desaparecidos no al azar.

5 votos

El Journal of Statistical Software (en línea) publicó recientemente un número sobre la imputación múltiple, y he estado estudiando los tres grandes paquetes de imputación múltiple para R: Amelia , mi y mice . Las similitudes y diferencias son fascinantes. ( Amelia 's over impute es bastante interesante).

1 votos

Aquí está el enlace al número de JSS: jstatsoft.org/v45

14voto

Loren Pechtel Puntos 2212

No estoy seguro de que esto sea correcto, pero la forma en que he intentado entenderlo es como si hubiera una matriz de 2x2 de posibilidades que no es del todo simétrica. Algo así como:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Es decir, si hay un patrón en la omisión de una variable y los datos que tenemos no pueden explicarlo, tenemos MNAR, pero si los datos que tenemos (es decir, otras variables en nuestro conjunto de datos) pueden explicarlo, tenemos MAR. Si no hay ningún patrón en la omisión, tenemos MCAR.

Puede que esté muy equivocado. Además, esto deja abierta la definición de "Patrón" y "Los datos explican". Para mí, "los datos explican" significa que otras variables del conjunto de datos lo explican, pero creo que tu procedimiento también puede explicarlo (por ejemplo, un buen ejemplo en otro hilo es si tienes tres variables de medición que miden lo mismo y tu procedimiento es que si las dos primeras mediciones difieren demasiado, tomas una tercera medición).

¿Es lo suficientemente preciso para la intuición, CV?

0 votos

Visualización muy útil. Gracias.

-4voto

HonzaB Puntos 23

A mí también me costó entender la diferencia, así que quizá algunos ejemplos puedan ayudar.

MCAR : Desaparecido completamente al azar Esto es genial. Significa que la falta de respuesta es completamente aleatoria. Así que su encuesta no está sesgada.

MAR : Desaparecidos al azar peor situación. Imagina que pides el cociente intelectual y tienes muchas más participantes mujeres que hombres. Por suerte para usted, el CI no está relacionado con el sexo, por lo que puede controlar el sexo (aplicar ponderación) para reducir el sesgo.

MNAR : No falta al azar mal. Considere la posibilidad de hacer una encuesta sobre el nivel de ingresos. Y de nuevo, tiene más mujeres que hombres participantes. En este caso, es un problema, porque el nivel de ingresos está relacionado con el sexo. Por lo tanto, los resultados estarán sesgados. No es fácil de eliminar.

Se trata de una relación "triangular" entre la variable objetivo (Y, como los ingresos), la variable auxiliar (X, como la edad) y el comportamiento de respuesta (R, el grupo de respuesta). Si X sólo está relacionada con R, bien (MAR). Si hay relación entre X y R y entre X e Y, mala (MNAR).

0 votos

Los ejemplos que utiliza para explicar los distintos patrones de omisión se refieren a problemas con el muestreo, o con el reclutamiento de una muestra de participantes que coincida con la población a la que se dirige. Por lo tanto, no conseguir suficientes participantes de un determinado grupo demográfico no es un problema de falta de datos. Los datos omitidos se refieren a los datos que faltan en las variables del conjunto de datos (celdas en blanco) y los patrones (o la falta de) de omisión en los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X