23 votos

Prueba de muestreo IID

¿Cómo probaría o comprobaría que el muestreo es IID (Independiente e Idénticamente Distribuido)? Tenga en cuenta que no me refiero a gaussiano e idénticamente distribuido, sino a IID.

Y la idea que se me ocurre es dividir repetidamente la muestra en dos submuestras de igual tamaño, realizar la prueba de Kolmogorov-Smirnov y comprobar que la distribución de los valores p es uniforme.

Cualquier comentario sobre este enfoque y cualquier sugerencia serán bienvenidos.

Aclaración tras iniciar la recompensa: Busco una prueba general que pueda aplicarse a datos que no sean series temporales.

25voto

Eero Puntos 1612

Lo que se concluye sobre si los datos son IID procede de información externa, no de los propios datos. Usted, como científico, debe determinar si es razonable suponer que los datos son IID basándose en cómo se recogieron y en otra información externa.

Veamos algunos ejemplos.

Escenario 1: Generamos un conjunto de datos de forma independiente a partir de una única distribución que resulta ser una mezcla de 2 normales.

Escenario 2: Primero generamos una variable de género a partir de una distribución binomial, luego dentro de los hombres y las mujeres generamos independientemente datos a partir de una distribución normal (pero las normales son diferentes para hombres y mujeres), luego borramos o perdemos la información de género.

En el escenario 1 los datos son IID y en el escenario 2 los datos claramente no están distribuidos Idénticamente (diferentes distribuciones para hombres y mujeres), pero las 2 distribuciones para los 2 escenarios son indistinguibles de los datos, tienes que saber cosas sobre cómo se generaron los datos para determinar la diferencia.

Escenario 3: Tomo una muestra aleatoria simple de personas que viven en mi ciudad, administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas de la ciudad.

Escenario 4: Tomo una muestra aleatoria simple de personas que viven en mi ciudad, administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas del país.

En el escenario 3, los sujetos se considerarían independientes (muestra aleatoria simple de la población de interés), pero en el escenario 4 no se considerarían independientes porque se seleccionaron de un subconjunto pequeño de la población de interés y la proximidad geográfica probablemente impondría dependencia. Pero los 2 conjuntos de datos son idénticos, es la forma en que pretendemos utilizar los datos lo que determina si son independientes o dependientes en este caso.

Así que no hay manera de probar utilizando sólo los datos para mostrar que los datos son IID, gráficos y otros diagnósticos pueden mostrar algunos tipos de no IID, pero la falta de estos no garantiza que los datos son IID. También puede comparar con supuestos específicos (IID normal es más fácil de refutar que sólo IID). Cualquier prueba sigue siendo sólo un descarte, pero la falta de rechazo de las pruebas nunca prueba que sea IID.

Las decisiones sobre si está dispuesto a asumir que las condiciones del DII se mantienen deben tomarse basándose en la ciencia de cómo se recopilaron los datos, cómo se relacionan con otra información y cómo se utilizarán.

Editado:

He aquí otra serie de ejemplos para no idénticos.

Hipótesis 5: los datos son residuos de una regresión en la que hay heteroscedasticidad (las varianzas no son iguales).

Escenario 6: los datos proceden de una mezcla de normales con media 0 pero varianzas diferentes.

En el escenario 5 podemos ver claramente que los residuos no se distribuyen de forma idéntica si los comparamos con los valores ajustados u otras variables (predictores o predictores potenciales), pero los propios residuos (sin la información externa) serían indistinguibles del escenario 6.

6voto

mat_geek Puntos 1367

Si los datos tienen un índice de ordenación, puede utilizar pruebas de ruido blanco para series temporales. Esencialmente, esto significa probar que las autocorrelaciones en todos los rezagos distintos de cero son 0. Esto se ocupa de la parte de la independencia. Creo que su enfoque está tratando de abordar principalmente la parte idénticamente distribuida de la hipótesis. Creo que hay algunos problemas con su enfoque. Creo que necesita una gran cantidad de divisiones para obtener suficientes valores p para probar la uniformidad. Entonces cada prueba K-S pierde potencia. Si se utilizan divisiones que se solapan en partes del conjunto de datos, las pruebas estarán correlacionadas. Con un número pequeño de divisiones, la prueba de uniformidad carece de potencia. Pero con muchas divisiones, la prueba de uniformidad puede ser potente, pero las pruebas K-S no lo serían. También parece que este enfoque no ayudará a detectar la dependencia entre variables.

@gu11aume No estoy seguro de lo que pides con un test general para series no temporales. Los datos espaciales proporcionan una forma de datos de series no temporales. Ahí se podría mirar la función llamada variograma. Para secuencias unidimensionales no veo mucha diferencia entre secuencias ordenadas por tiempo frente a cualquier otra forma de ordenar los datos. Aun así, se puede definir y probar una función de autocorrelación. Cuando dices que quieres probar la independencia en el muestreo, creo que tienes un orden en el que se recogen las muestras. Así que creo que todos los casos unidimensionales funcionan de la misma manera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X