29 votos

Prueba de Kolmogorov-Smirnov con datos discretos: ¿Cuál es el uso adecuado de la dgof::ks.prueba en R?

Principiante preguntas:

Quiero probar si dos conjuntos de datos discretos provienen de la misma distribución. El test de Kolmogorov-Smirnov fue sugerido a mí.

Conover (Prácticas Estadísticas no paramétricas, 3d) parece decir que el test de Kolmogorov-Smirnov puede ser utilizado para este propósito, pero su comportamiento "conservador" con distribuciones discretas, y no estoy seguro de lo que quiere decir aquí.

DavidR del comentario en otra pregunta dice: "... Usted todavía puede hacer un nivel α test basado en el K-S de la estadística, pero usted tendrá que encontrar algún otro método para obtener el valor crítico, por ejemplo, mediante la simulación".

La versión de ks.de prueba() en la dgof paquete de R (artículo, cran) añade algunas funciones que no están presentes en la versión predeterminada de ks.de prueba() en las estadísticas de paquetes. Entre otras cosas, dgof::ks.la prueba incluye este parámetro:

simular.p.valor: una lógica que indica si se deben calcular los valores de p por La simulación de Monte Carlo, discretas de bondad de ajuste de las pruebas solamente.

Es el propósito de simular.p.valor=T para lograr lo que DavidR sugiere?

Incluso si lo es, no estoy seguro de si realmente se puede utilizar dgof::ks.prueba para una prueba de dos muestras. Parece que sólo proporciona una prueba de dos muestras de una distribución continua:

Y si es numérico, una prueba de dos muestras de la hipótesis nula de que x e y fueron extraídas de la misma distribución continua que se realiza.

Alternativamente, y puede ser una cadena de caracteres de nombres continua (acumulativa) función de distribución (o de una función), o un ecdf función (o un objeto de la clase stepfun), dando una distribución discreta. En estos casos, una prueba de la muestra se lleva a cabo de la nula de que el función de distribución que genera x es la distribución y ....

(Los detalles del fondo: Estrictamente hablando, mi subyacente a las distribuciones continuas, sino que los datos tienden a estar muy cerca de un puñado de puntos. Cada punto es el resultado de una simulación, y es una media de 10 o 20 números reales entre -1 y 1. Por el final de la simulación, los números son casi siempre muy cerca de .9 o -.9. Por lo tanto los medios agrupación en torno a unos valores, y estoy tratarlos como discretos. La simulación es complejo, y no tengo ninguna razón para pensar que los datos siguen una bien conocida la distribución.)

Asesoramiento? Gracias!

21voto

Eero Puntos 1612

Esta es una respuesta a @jbrucks extensión (de respuestas, pero el original).

Una prueba general de si 2 muestras provienen de la misma población y/o de distribución, o si hay una diferencia es la prueba de permutación. Elija una estadística de interés, este podría ser el KS estadístico de prueba o de la diferencia de medios o la diferencia de las medianas o el cociente de varianzas o ... (lo que es más significativo para su pregunta, usted podría hacer simulaciones bajo probable condiciones para ver que la estadística le da los mejores resultados) y calcular la estadística en el original de 2 muestras. A continuación, de forma aleatoria permutar las observaciones entre los grupos (grupo a todos los puntos de datos en una gran piscina, aleatoriamente divididos en 2 grupos de los mismos tamaños de las muestras originales) y calcular la estadística de interés de la permutada muestras. Repita esto un montón de veces, la distribución de la muestra estadísticas de las formas de su nula distribución y comparar el original de la estadística para esta distribución. Tenga en cuenta que la hipótesis nula es que las distribuciones son idénticas, no sólo que los medios/mediana/etc. son iguales.

Si usted no desea asumir que las distribuciones son idénticas pero quiero probar para una diferencia de medias/medianas/etc. entonces se podría hacer un bootstrap.

Si usted sabe lo que la distribución de los datos proviene de (o, al menos, están dispuestos a asumir una distribución), entonces usted puede hacer una prueba de razón de probabilidad en la igualdad de los parámetros (comparar el modelo con un solo conjunto de parámetros a través de ambos grupos para el modelo con separar conjuntos de parámetros). La relación de probabilidad de la prueba generalmente se utiliza una distribución chi-squared que está muy bien en muchos casos (asymtotics), pero si usted está utilizando pequeño tamaño de las muestras o pruebas de un parámetro cerca de su límite (una variación de 0, por ejemplo) entonces la aproximación no puede ser bueno, puede usar la prueba de permutación para obtener una mejor nula distribución.

Estas pruebas todos a trabajar en continuo o distribuciones discretas. También debe incluir algún tipo de medida de potencia o un intervalo de confianza para indicar la cantidad de la incertidumbre, de la falta de importancia podría ser debido a la baja potencia o una diferencia estadísticamente significativa aún podría ser prácticamente de sentido.

1voto

user20121 Puntos 6

Me gustaría participar en esta pregunta - o a plantear un poco más general: ¿qué es una buena(estándar) probar si dos muestras de datos discretos provenientes de desconocidos distribuciones: - tienen la misma media o - la misma mediana o
- 'provienen de la misma distribución", en cualquier sentido (cualquiera de ellas sería la de ACEPTAR para mí).

(Tengo un montón de puntos de datos - al menos por ahora) No he encontrado una (rápido) respuesta en la red - estoy bien, suponiendo, esto es por alguna razón, menos simple problema de distribuciones continuas (¿por qué? tal vez C. L. Teorema no se aplica?) Lo siento si es que ingenuamente formulado, pero yo no soy un gran estadista - sin embargo... thx

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X