La notificación tras la tabla ANOVA después del análisis K-means indica que los niveles de significación no deben considerarse como la prueba de igualdad de medias, ya que la solución de conglomerados se ha obtenido basándose en la distancia euclídea para maximizar la distancia. ¿Qué prueba debo utilizar para mostrar si las medias de las variables de agrupación difieren entre los conglomerados? He visto esta advertencia en la tabla ANOVA proporcionada por los resultados de k-means, pero en algunas referencias veo que se realizan pruebas ANOVA post-hoc. ¿Debo ignorar los resultados del ANOVA de k-mean y ejecutar un ANOVA unidireccional con pruebas post-hoc e interpretarlos de forma tradicional? ¿O sólo puedo insinuar la magnitud del valor F y qué variables contribuyeron más a la diferencia? Otra confusión es que las variables de agrupamiento no se distribuyen normalmente, lo que viola el supuesto del ANOVA, entonces podría utilizar la prueba no paramétrica de Kruskal-Wallis, pero tiene el supuesto sobre las mismas distribuciones. Las distribuciones entre conglomerados para las variables específicas no parecen iguales, algunas están sesgadas positivamente, otras negativamente... Tengo 1275 muestras grandes, 5 conglomerados, 10 variables de conglomerado medidas en puntuaciones PCA.
Correcto, esa es la idea que subyace a la estadística Gap.
0 votos
¿Por qué es necesario comprobar la igualdad de medias? ¿No puedes simplemente probar cómo funciona tu modelo fuera de la muestra?
0 votos
Quería determinar qué medias de las variables difieren entre los conglomerados, es decir, si la media de v1 en el conglomerado 1 es diferente de la media de v1 en los conglomerados 2, 3, 4, 5. Por supuesto, puedo ver que al hacer la media de v1 en el conglomerado 1, la media de v1 en el conglomerado 2 es diferente. Por supuesto, puedo verlo haciendo un gráfico, pero no me informa sobre la diferencia estadística. La prueba de la diferencia estadística me confundió, ya que para el ANOVA mis datos no cumplían el supuesto de distribución normal, pero para la prueba de Kruskal Wallis el supuesto de distribución de la misma forma entre los grupos de conglomerados.
2 votos
Como señala @James en su respuesta, usted está "fisgoneando". ¿Cuál podría ser una razón para probar la significación entre los grupos que usted (su agrupación) preseleccionado diferir lo más posible? Aquí no hay ninguna marca de muestreo aleatorio o proporcional de poblaciones que son distintas sobre la base de alguna externo características de fondo.
0 votos
Gracias por las respuestas. Mi confusión surgió porque en algunas fuentes veo que las comparaciones estadísticas de medias no son apropiadas en esta situación, como usted también ha señalado, pero, por ejemplo, una cita del capítulo de un libro indica lo contrario: "normalmente examinamos las medias de cada conglomerado en cada dimensión utilizando ANOVA para evaluar lo distintos que son nuestros conglomerados. Lo ideal sería obtener medias significativamente diferentes para la mayoría, si no todas las dimensiones, utilizadas en el análisis. La magnitud de los valores F realizados en cada dimensión es una indicación de lo bien que la dimensión respectiva discrimina entre clusters"
2 votos
Tiene derecho a evaluar las diferencias entre las agrupaciones en función de las características utilizadas para agruparlas, con el fin de averiguar cuáles son las más discriminatorias. Al hacerlo, puede calcular las diferencias relativas, las F e incluso los p-valores. Como indicadores del tamaño del efecto. No como indicadores de significación estadística (que se refieren a poblaciones).
0 votos
Tengo la misma pregunta que usted. Se trata de mi trabajo de doctorado. Me gustaría contactar con usted por correo electrónico. Por favor, comparta su id de correo Mi id de correo varuna.newatiya@gmail.com
0 votos
Al menos basándonos en este artículo el uso del anova parecería legítimo: "Las diferencias de medias entre conglomerados se comprobaron mediante análisis de la varianza (ANOVA) ajustado según procediera (Fisher, 1925). Se realizaron comparaciones post-hoc entre medias utilizando la corrección de Tukey". (Cita directa de Vieux, F., Privet, L., Soler, L. G., Irz, X., Ferrari, M., Sette, S., . . . Darmon, N. (2020). Las dietas europeas más sostenibles basadas en la autoselección no requieren la exclusión de categorías enteras de alimentos. Journal of Cleaner Production, 248 doi:10.1016/j.jclepro.2019.119298)"