31 votos

¿Pueden ser analizadas las muestras no aleatorias usando pruebas estadísticas estándar?

Muchos estudios clínicos se basan en muestras no aleatorias. Sin embargo, pruebas más estándar (por ejemplo, pruebas t, ANOVA, regresión, regresión logística) se basan en la suposición de que las muestras contienen "números aleatorios". ¿Son resultados válidos si estas muestras no aleatorias se analizaron mediante pruebas estándar? Gracias.

27voto

Derek Swingley Puntos 3851

Existen dos modelos generales para las pruebas. El primero, basado en el supuesto de muestreo aleatorio de una población, se le suele llamar el "modelo de población".

Por ejemplo, para dos muestras independientes prueba t, se supone que los dos grupos se desean comparar son muestras aleatorias de la población respectiva. Suponiendo que las distribuciones de las puntuaciones en los dos grupos se distribuye normalmente en la población, se puede entonces deducir analíticamente la distribución de muestreo de la estadística de prueba (es decir, para el t-estadístico). La idea es que si tuviéramos que repetir este proceso (al azar dibujo de dos muestras tomadas de la población respectiva) un número infinito de veces (por supuesto, realmente no hacerlo), podemos obtener esta distribución de muestreo de la estadística de prueba.

Un modelo alternativo para la prueba es el "aleatorización modelo". Aquí, no tenemos que apelar a un muestreo aleatorio. En su lugar, se obtiene una aleatorización de distribución a través de permutaciones de nuestras muestras.

Por ejemplo, para la prueba t-test, tienes tus dos muestras (no necesariamente obtenida a través del muestreo aleatorio). Ahora si, de hecho, no hay ninguna diferencia entre estos dos grupos, entonces si una persona realmente "pertenece" al grupo 1 o grupo 2 es arbitraria. Así, lo que podemos hacer es permutar la asignación de los grupos de más y más, cada vez que toma nota de en qué medida el medio de los dos grupos están separados. De esta manera, se obtiene una distribución de muestreo empíricamente. A continuación, podemos comparar cómo la medida de los dos medios son, aparte de las muestras originales (antes de que empezamos a barajar la pertenencia a grupo) y si la diferencia es de "extrema" (es decir, cae en las colas de derivados empíricamente distribución de muestreo), entonces llegamos a la conclusión de que la pertenencia al grupo no es arbitraria y, de hecho, hay una diferencia entre los dos grupos.

En muchas situaciones, los dos enfoques en realidad llevan a la misma conclusión. En cierto modo, el enfoque basado en el modelo de población puede ser visto como una aproximación a la aleatorización de la prueba. Curiosamente, Fisher fue uno de los que propuso la aleatorización modelo, y sugirió que debería ser la base de nuestras inferencias (ya que la mayoría de las muestras no son obtenidos a través de muestreo aleatorio).

Un buen artículo que describe la diferencia entre los dos enfoques es:

Ernst, M. D. (2004). Permutación métodos: Una base para la inferencia exacta. Estadísticos de las Ciencias, 19(4), 676-685 (enlace).

Otro artículo que proporciona un buen resumen y sugieren que la aleatorización enfoque debe ser la base para nuestras inferencias:

Ludbrook, J., & Dudley, H. (1998). ¿Por qué pruebas de permutación son superiores a las pruebas t y F en la investigación biomédica. Estadístico americano, 52(2), 127-132 (enlace).

EDIT: también debo agregar que es común para calcular la misma prueba estadística cuando se utiliza la aleatorización enfoque bajo el modelo de población. Así, por ejemplo, para la prueba de diferencia de medias entre dos grupos, uno podría calcular la costumbre estadística t para todas las permutaciones posibles de la pertenencia a grupos (rendimiento del empíricamente derivados de la distribución de muestreo bajo la hipótesis nula) y, a continuación, uno podría comprobar lo extremo de la estadística t para el grupo original de afiliación es menor que el de la distribución.

10voto

Auron Puntos 2123

Tu pregunta es muy buena, pero no tiene una respuesta sencilla.

La mayoría de las pruebas como los que usted menciona se basan en la suposición de que una muestra es una muestra aleatoria, debido a que una muestra aleatoria es probable que sea representativa de la población muestreada. Si la hipótesis no es válida, a continuación, cualquier interpretación de los resultados se tiene que tomar en cuenta eso. Cuando la muestra no es muy representativa de la población, a continuación, los resultados son propensos a ser engañoso. Cuando la muestra es representativa a pesar de ser no-al azar, a continuación, los resultados serán perfectamente bien.

El siguiente nivel de la pregunta es, entonces, preguntar cómo podemos decidir si la no aleatoriedad de los asuntos en cualquier caso particular. Yo no puedo contestar ;-)

5voto

Nikos Alexandris Puntos 764

Le pregunte a una pregunta general, por lo que la respuesta puede no ser adecuado para todos los casos. Sin embargo, puedo aclarar. Las pruebas estadísticas en general tienen que ver con la distribución observada frente a una hipotética distribución (los llamados nula distribución o hipótesis nula; o, en algunos casos, una alternativa de distribución). Las muestras pueden no ser al azar, pero la prueba en que se administra es de aplicarse a algunos de valor obtenidos de las muestras. Si esa variable puede tener algunas propiedades estocásticas, a continuación, su distribución es en comparación con algunos de distribución alternativos. Lo que importa es si o no la muestra de la prueba estadística que se mantenga por alguna otra población de interés, y si las suposiciones con respecto a la alternativa o nula distribución son relevante para el resto de la población de interés.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X