Como señala la respuesta de David, la prueba de chi-cuadrado es necesaria para los datos divididos en cubos, ya que la prueba KS asume distribuciones continuas. En cuanto a la razón por la que la prueba KS es inadecuada (comentario de naught101), se ha debatido la cuestión en la literatura de estadística aplicada y merece la pena plantearla aquí.
Un divertido intercambio comenzó con la afirmación ( García-Berthou y Alcaraz, 2004 ) que un tercio de los artículos de Nature contienen errores estadísticos. Sin embargo, un artículo posterior ( Jeng, 2006 , " Error en las pruebas estadísticas de error en las pruebas estadísticas "El artículo de Jeng (2006) proporciona una buena discusión sobre el tema, mostrando incluso que se puede modificar la prueba KS para que funcione con datos discretos. El artículo de Jeng (2006) proporciona una buena discusión sobre el tema, mostrando incluso que se puede modificar la prueba KS para que funcione con datos discretos. En este caso concreto, la distinción se reduce a la diferencia entre una distribución uniforme del dígito final en [0,9], $$ P(x) = \frac{1}{9},\ (0 \leq x \leq 9) $$ (en la prueba KS incorrecta) y una distribución en peine de las funciones delta, $$ P(x) = \frac{1}{10}\sum_{j=0}^9 \delta(x-j) $$ (en la forma correcta y modificada). Como resultado del error original, García-Berthou y Alcaraz (2004) rechazaron incorrectamente la nulidad, mientras que la prueba de chi-cuadrado y la prueba KS modificada no lo hacen. En cualquier caso, la prueba de chi-cuadrado es la opción estándar en este escenario, incluso si la KS puede modificarse para que funcione aquí.
6 votos
¿Qué significa "similar"? La prueba de chi-cuadrado y la prueba KS, por ejemplo, prueban si dos histogramas son similares a idéntico. Pero "similar" podría significar "tener la misma forma". ignorando cualquier diferencia de ubicación y/o escala. ¿Podría aclarar su intención?
0 votos
Además de la $\chi^2$ se puede producir un bihistograma ( itl.nist.gov/div898/handbook/eda/section3/bihistog.htm ) Del manual: "Es una alternativa gráfica a la prueba t de dos muestras. El bihistograma puede ser más potente que la prueba t en el sentido de que todas las características de la distribución (ubicación, escala, asimetría, valores atípicos) son evidentes en un solo gráfico."
0 votos
@whuber: ¿Puedo utilizar la prueba KS en histogramas discretos directamente? ¿Debo transformarlos primero a CDF?
1 votos
@just El test KS no funciona con valores empatados, que es lo que tienes con los histogramas. (No estoy seguro de a qué te refieres con un histograma "discreto".) Fui descuidado en mi primer comentario al usar "histograma" donde debería haber escrito "distribución empírica". Véase stats.stackexchange.com/a/7410/919 (una de las respuestas en este hilo).
0 votos
@whuber: Lo digo en serio: medium.com/analytics-vidhya/ observe la primera imagen.
1 votos
@justo El gráfico de la izquierda es un gráfico de barras de frecuencia. El gráfico de la derecha muestra el gráfico de una (probabilidad) función de densidad, o PDF. Ninguno de los dos es un verdadero histograma, aunque sería razonable pensar en el PDF como una especie de "histograma continuo", y desde ese punto de vista puedo entender por qué podría haber especificado "discreto".
1 votos
Sí, pero te haces una idea, el histograma discreto es con "barras", y el histograma continuo con todos los valores en una "función" continua...