22 votos

Evaluar la significación de las diferencias en las distribuciones

Tengo dos grupos de datos. Cada uno con una distribución diferente de múltiples variables. Estoy tratando de determinar si las distribuciones de estos dos grupos son diferentes de manera estadísticamente significativa. Tengo los datos en ambos forma cruda y desechado en más fácil para hacer frente a categorías discretas con el conteo de frecuencia en cada uno.

¿Qué métodos/procedimientos/pruebas debo utilizar para determinar si estos dos grupos son significativamente diferentes y cómo hacer que en SAS o R (o naranja)?

17voto

huseyint Puntos 8196

Yo creo que esto requiere una de dos muestras de prueba de Kolmogorov–Smirnov, o similares. Las dos muestras de prueba de Kolmogorov–Smirnov y la prueba está basada en la comparación de las diferencias en la distribución empírica de las funciones (ECDF) de dos muestras, lo que significa que es sensible a la ubicación y forma de las dos muestras. También se generaliza a un multivariante forma.

Esta prueba se encuentran en diversas formas en los diferentes paquetes en R, por lo que si son, básicamente, competente, todo lo que tienes que hacer es instalar uno de ellos (por ejemplo, fBasics), y ejecutar en su muestra de datos.

9voto

tobes Puntos 19

Voy a pedir al consultor la pregunta tonta. ¿Por qué quieres saber si estas distribuciones son diferentes de modo estadísticamente significativo?

Es que los datos que está utilizando son muestras representativas de las poblaciones o de los procesos, y se desea evaluar la evidencia de que esas poblaciones o procesos diferentes? Si es así, entonces el estadístico de prueba es adecuado para usted. Pero esto parece una pregunta extraña para mí.

O, ¿está usted interesado en saber si usted realmente necesita para comportarse como si las poblaciones o de los procesos son diferentes, independientemente de la verdad? Entonces será mejor que la determinación de una función de pérdida, idealmente uno que devuelve las unidades que son importantes para usted, y la predicción de la pérdida esperada cuando (a) el tratamiento de las poblaciones como diferentes, y (b) los tratan como iguales. O usted puede elegir algunos de los cuantiles de la distribución de pérdidas si deseas adoptar a un más o menos posición conservadora.

5voto

Omar Kooheji Puntos 384

Usted podría estar interesado en la aplicación de la distribución relativa de los métodos. Llamar a un grupo, el grupo de referencia, y el otro el grupo de comparación. En una manera similar a la construcción de una probabilidad-probabilidad de parcela, usted puede construir una relación de CDF/PDF, que es una relación de las densidades. Esta densidad relativa puede ser utilizado para la inferencia. Si las distribuciones son idénticas, se espera una uniforme distribución relativa. Hay herramientas, gráficos y estadísticos, para explorar y examinar las desviaciones de la homogeneidad.

Un buen punto de partida para tener una mejor idea es Aplicar la Distribución Relativa de los Métodos en R y la reldist paquete en R. Para más detalles, tendrás que consultar el libro, la Distribución Relativa de los Métodos en las Ciencias Sociales por Handcock y Morris. También hay un papel por parte de los autores cubriendo las técnicas pertinentes.

2voto

Evan M. Puntos 231

Una medida de la diferencia entre distribución dos es el criterio de "máxima discrepancia media", que básicamente mide la diferencia entre los medios empíricos de las muestras de las dos distribuciones en un espacio de Hilbert núcleo reproduciendo (RKHS). Consulte este documento "Método de kernel para el problema dos de muestra".

-1voto

bentsai Puntos 1886

No sé cómo usar SAS/R/naranja, pero suena como el tipo de prueba que se necesita es una prueba de ji cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X