4 votos

Prueba de Kolmogorov-Smirnov de dos muestras (¿Cuántas veces se calcula D?)

Si quiero realizar una prueba de Kolmogorov-Smirnov de dos muestras, entiendo que necesito calcular la distancia entre dos ECDF varias veces a lo largo de las dos curvas y luego encontrar la distancia máxima entre las dos ECDF como mi estadística de prueba

¿Cuándo y cuántas veces exactamente se calcula la distancia entre los dos ECDF?

2voto

AdamSane Puntos 1825

Al calcular el test de Kolmogorov-Smirnov estadístico usted encontrar la distancia máxima entre el cdf. En el caso de las dos muestras de estadística, es la distancia máxima entre dos empírica de la cdf.

En el extremo izquierdo (a la izquierda de cualquiera de los puntos de datos), la distancia entre el cdf es 0, y en el extremo derecho (a la derecha de todos los puntos de datos) la distancia también es 0. Para encontrar la mayor de las distancias entre aquellos que, en la mayoría de los que necesita para el cálculo de la distancia cuando los cambios. He aquí un ejemplo ilustrativo:

Two sample KS test showing locations of changes in distance between the ECDFs

Como podemos ver la distancia entre cdf sólo los cambios en los puntos de datos. Como resultado, si los dos tamaños de muestra $m$$n$, el mayor número de cambios tendríamos que considerar sería la $m+n$. Sin embargo, el último cambio va a ser a $0$, por lo que no necesitamos para comprobar que uno, lo que en la mayoría de las $m+n-1$ lugares que debemos considerar la diferencia en los valores.

(Puede ser menos de que en algunas situaciones - por ejemplo, si hay empates en los datos, no sólo es necesario considerar el número total de valores distintos.)

En una observación a partir de la primera muestra, $F_1-F_2$ (nota: esto no es actualmente de $|F_1-F_2|$, es una firma de cantidad) aumentará en $1/m$ y en una observación a partir de la segunda muestra, $F_1-F_2$ disminuirá por $1/n$.

En algunos casos, es posible saber que el mayor $D$ identificado hasta el momento, no se superarán en el siguiente cambio o, incluso, los próximos cambios, en cuyo caso puede en principio ser posible en algunas situaciones particulares para reducir el número de comparaciones de$m+n-1$, en menor número.

Sin embargo, a mi conocimiento implementaciones reales generalmente calcular la diferencia en cada punto de datos (a menudo incluyendo el cálculo redundante en la última observación de la muestra combinada).

Como un ejemplo de la implementación en R calcula la diferencia en todos los $m+n$ valores; no se hace ningún intento para tratar de reducir (no menos porque es probable que sea más lenta para tratar de reducir el cálculo de simplemente hacer el cálculo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X