13 votos

Prueba de Kolmogorov-Smirnov frente a la prueba de Chi-cuadrado

¿Cuál es la diferencia entre el Prueba de Kolmogorov-Smirnov y el Prueba de Chi-cuadrado ?

¿Cuándo debemos utilizar una en lugar de la otra?

Estaba leyendo este artículo y me confundí mucho.

Es difícil obtener una respuesta relacionada con la física en la sección de la SE validada en cruz, así que por eso pregunto aquí.

17voto

Rob Jeffries Puntos 26630

Se utiliza una prueba de chi-cuadrado para comparar Binned datos (por ejemplo, un histograma) con otro conjunto de datos clasificados o las predicciones de un modelo clasificados de la misma manera.

Una prueba K-S se aplica a los datos no tabulados para comparar la frecuencia acumulada de dos distribuciones o comparar una frecuencia acumulada con la predicción de un modelo de una frecuencia acumulada.

Tanto la chi-cuadrado como la K-S darán una probabilidad de rechazar la hipótesis nula. La división artificial de los datos pierde información, por lo que debe evitarse en la medida de lo posible. Por otro lado, el estadístico chi-cuadrado ofrece atajos útiles si se trata de modelar los parámetros que describen un conjunto de datos y las incertidumbres de esos parámetros. La prueba K-S no debería utilizarse realmente si hay parámetros ajustables que se están optimizando para ajustarse a los datos.

Un ejemplo concreto y trivial. Mido la altura de 1000 personas. Digamos que todas están entre 1,5m y 2m de altura. Tengo un modelo que quiero probar que dice que la distribución es gaussiana con una media de 1,76m y una dispersión (sigma) de 0,1m.

Entonces, ¿cómo puedo comprobar si este modelo representa bien los datos? Un enfoque es construir la distribución acumulativa de las alturas y luego compararla con la distribución normal acumulativa descrita utilizando una prueba KS . Sin embargo, una alternativa sería poner los datos en, por ejemplo, intervalos de 5 cm y luego hallar el estadístico chi-cuadrado en comparación con el modelo. En ambos casos se obtendría una probabilidad de rechazar la hipótesis nula. Sin embargo, para este propósito, yo preferiría la prueba K-S, ya que la división de los datos en segmentos elimina parte de la información.

Por otro lado quizás tu hipótesis es que la distribución es normal y quieres encontrar cuál es la media y la dispersión. En ese caso no puede utilizar la prueba K-S, no es para eso. Sin embargo, usted puede minimizar el chi-cuadrado para encontrar los parámetros que mejor se ajustan utilizando los datos divididos. Una advertencia es que, cuando se trata de frecuencias, la chi-cuadrado no debe utilizarse cuando se tienen números pequeños por recipiente (por ejemplo, menos de 9), porque los estadísticos de Poisson adquieren importancia. En estos casos existen alternativas como el "estadístico Cash".

Supongo que, en cierto nivel, los datos siempre están divididos en cubos. Pero cuando se hace la prueba K-S, ¡suele haber un solo objeto en cada recipiente!

Nota: La prueba K-S no es uniformemente sensible a las diferencias en las distribuciones en todos los valores. Es más sensible a las diferencias en la mediana y muy insensible a las diferencias en las colas de las distribuciones. Una prueba mejor en general es la Prueba de Anderson-Darling es generalmente una mejor manera de comparar dos distribuciones muestrales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X