Hay diferencias en los supuestos y las hipótesis que se ponen a prueba.
El ANOVA (y la prueba t) es explícitamente una prueba de igualdad de medias de valores. El Kruskal-Wallis (y el Mann-Whitney) puede considerarse técnicamente como una comparación de la media rangos .
Por lo tanto, en términos de valores originales, el Kruskal-Wallis es más general que una comparación de medias: comprueba si la probabilidad de que una observación aleatoria de cada grupo esté igualmente por encima o por debajo de una observación aleatoria de otro grupo. La cantidad de datos real que subyace a esa comparación no es ni la diferencia de medias ni la diferencia de medianas, (en el caso de dos muestras) es en realidad la mediana de todas las diferencias por pares - la diferencia entre muestras de Hodges-Lehmann.
Sin embargo, si se opta por hacer algunas suposiciones restrictivas, entonces Kruskal-Wallis puede considerarse como una prueba de igualdad de las medias de la población, así como de los cuantiles (por ejemplo, las medianas) y, de hecho, de una amplia variedad de otras medidas. Es decir, si se asume que las distribuciones de grupo bajo la hipótesis nula son las mismas, y que bajo la alternativa, el único cambio es una distribución turno (un llamado " alternativa al cambio de ubicación "), entonces también es una prueba de igualdad de las medias de la población (y, simultáneamente, de las medianas, cuartiles inferiores, etc.).
Si hace esa suposición, puede obtener estimaciones e intervalos para los cambios relativos, al igual que con el ANOVA. Bueno, también es posible obtener intervalos sin ese supuesto, pero son más difíciles de interpretar].
Si miras la respuesta aquí En este artículo, especialmente hacia el final, se discute la comparación entre la prueba t y la de Wilcoxon-Mann-Whitney, que (cuando se hacen pruebas de dos colas al menos) son el equivalente* de ANOVA y Kruskal-Wallis aplicados a una comparación de sólo dos muestras; da un poco más de detalle, y gran parte de esa discusión se traslada a la de Kruskal-Wallis vs ANOVA.
* (aparte de un problema particular que surge con las comparaciones multigrupo en las que puede haber diferencias no transitivas entre pares)
No está del todo claro a qué te refieres con una diferencia práctica. En general, los utilizas de forma similar. Cuando se aplican ambos conjuntos de supuestos, suelen dar resultados bastante similares, pero ciertamente pueden dar valores p bastante diferentes en algunas situaciones.
Edición: He aquí un ejemplo de la similitud de la inferencia incluso con muestras pequeñas -- aquí está la región de aceptación conjunta para los cambios de ubicación entre tres grupos (el segundo y el tercero cada uno comparado con el primero) muestreados a partir de distribuciones normales (con tamaños de muestra pequeños) para un conjunto de datos particular, al nivel del 5%:
Pueden distinguirse numerosas características interesantes: en este caso, la región de aceptación del KW es ligeramente mayor, y su límite está formado por segmentos de líneas rectas verticales, horizontales y diagonales (no es difícil averiguar por qué). Las dos regiones nos dicen cosas muy parecidas sobre los parámetros que nos interesan.