24 votos

Adecuación del ANOVA tras el análisis de conglomerados de k-means

La notificación tras la tabla ANOVA después del análisis K-means indica que los niveles de significación no deben considerarse como la prueba de igualdad de medias, ya que la solución de conglomerados se ha obtenido basándose en la distancia euclídea para maximizar la distancia. ¿Qué prueba debo utilizar para mostrar si las medias de las variables de agrupación difieren entre los conglomerados? He visto esta advertencia en la tabla ANOVA proporcionada por los resultados de k-means, pero en algunas referencias veo que se realizan pruebas ANOVA post-hoc. ¿Debo ignorar los resultados del ANOVA de k-mean y ejecutar un ANOVA unidireccional con pruebas post-hoc e interpretarlos de forma tradicional? ¿O sólo puedo insinuar la magnitud del valor F y qué variables contribuyeron más a la diferencia? Otra confusión es que las variables de agrupamiento no se distribuyen normalmente, lo que viola el supuesto del ANOVA, entonces podría utilizar la prueba no paramétrica de Kruskal-Wallis, pero tiene el supuesto sobre las mismas distribuciones. Las distribuciones entre conglomerados para las variables específicas no parecen iguales, algunas están sesgadas positivamente, otras negativamente... Tengo 1275 muestras grandes, 5 conglomerados, 10 variables de conglomerado medidas en puntuaciones PCA.

0 votos

¿Por qué es necesario comprobar la igualdad de medias? ¿No puedes simplemente probar cómo funciona tu modelo fuera de la muestra?

0 votos

Quería determinar qué medias de las variables difieren entre los conglomerados, es decir, si la media de v1 en el conglomerado 1 es diferente de la media de v1 en los conglomerados 2, 3, 4, 5. Por supuesto, puedo ver que al hacer la media de v1 en el conglomerado 1, la media de v1 en el conglomerado 2 es diferente. Por supuesto, puedo verlo haciendo un gráfico, pero no me informa sobre la diferencia estadística. La prueba de la diferencia estadística me confundió, ya que para el ANOVA mis datos no cumplían el supuesto de distribución normal, pero para la prueba de Kruskal Wallis el supuesto de distribución de la misma forma entre los grupos de conglomerados.

2 votos

Como señala @James en su respuesta, usted está "fisgoneando". ¿Cuál podría ser una razón para probar la significación entre los grupos que usted (su agrupación) preseleccionado diferir lo más posible? Aquí no hay ninguna marca de muestreo aleatorio o proporcional de poblaciones que son distintas sobre la base de alguna externo características de fondo.

21voto

Rob Allen Puntos 486

¡No!

Usted debe no utilizar los mismos datos para 1) realizar la agrupación y 2) buscar diferencias significativas entre los puntos de las agrupaciones. Incluso si no hay una estructura real en los datos, la agrupación impondrá una agrupando puntos cercanos. Esto reduce la varianza dentro del grupo y aumenta la varianza entre los grupos, lo que da lugar a falsos positivos.

Este efecto es sorprendentemente fuerte. Estos son los resultados de un simulación que extrae 1000 puntos de datos de una distribución normal estándar. Si asignamos los puntos a uno de cinco grupos al azar antes de ejecutar el ANOVA, observamos que los p-valores se distribuyen uniformemente: El 5% de las ejecuciones son significativas al nivel (no corregido) de 0,05, el 1% al nivel de 0,01, etc. En otras palabras, no hay ningún efecto. Sin embargo, si $k$ -means se utiliza para agrupar los datos en 5 grupos, encontramos un efecto significativo prácticamente siempre, aunque los datos no tengan una estructura real .

Simulation results showing a uniform distribution of pvalues for the random assignments and a highly skewed (almost all 0.05 or less) distribution of p values after clustering

No hay nada especial en un k-means o un ANOVA en este caso - se verían efectos similares utilizando pruebas no paramétricas o regresión logística y un árbol de decisión, incluso simplemente tomando el min/max.

Después de imponer algún tipo de estructura a los datos, no se puede comprobar si existe, ya que es obvio que sí. En consecuencia, validar el rendimiento de los algoritmos de agrupación es complicado, sobre todo si los datos no están etiquetados. Sin embargo, existen algunos enfoques para la "validación interna", es decir, para medir la calidad de los clusters sin utilizar fuentes de datos externas. En general, se centran en la compacidad y la separabilidad de los conglomerados. Este revise de Lui et al. (2010) puede ser un buen punto de partida.

5voto

AdamSane Puntos 1825

Creo que se podría aplicar un enfoque de este tipo (es decir, utilizando los estadísticos, como los estadísticos F o los estadísticos t o lo que sea), si se descartan las distribuciones nulas habituales .

Lo que tendría que hacer es simular a partir de la situación en la que su nulo es cierto, aplicar todo el procedimiento (agrupación, etc.) y, a continuación, calcular cada vez el estadístico que sea. Aplicado a muchas simulaciones, se obtendría una distribución para la estadística bajo la nula con la que se podría comparar el valor de la muestra. Al incorporar la filtración de datos al cálculo, se tiene en cuenta su efecto.

[Como alternativa, se podría desarrollar una prueba basada en el remuestreo (ya sea por permutación/aleatorización o bootstrapping)].

4 votos

Correcto, esa es la idea que subyace a la estadística Gap.

5voto

James Puntos 1045

Su verdadero problema es el espionaje de datos. No puede aplicar ANOVA o KW si las observaciones se asignaron a grupos (conglomerados) basándose en el propio conjunto de datos de entrada. Lo que puede hacer es utilizar algo como Estadística de diferencias para estimar el número de conglomerados.

Por otra parte, los p-valores fisgoneados están sesgados a la baja, de modo que si el resultado del ANOVA o de la prueba KW es insignificante, entonces el p-valor "verdadero" es aún mayor y puede decidir fusionar los conglomerados.

0voto

Ana Puntos 69

No es exactamente una respuesta, sino una propuesta sobre cómo encontrar la solución.

Estaba pensando en ese problema del racimo. La prueba requeriría el muestreo del conjunto de datos completo y derivar kmeans y ver si el mismo kmeans se produce dentro de una distribución (ejemplo con clustergram) de varias muestras (normalmente kmeans sí produce diferentes kmeans dependiendo de su punto de partida. Un algoritmo que se centre en el mismo kmeans a lo largo de múltiples iteraciones como clustergram podría ser más adecuado). Al igual que una media se deriva de muestras en estadística. Pero las medias k tienen varios tamaños de proporción para sus clusters, pero el punto es si las mismas medias aparecen dentro de una distribución.

Pero, ¿cómo comparar las distribuciones de las distintas variables del clúster? Normalmente, los coeficientes se obtienen a partir de una matriz de covarianza (¿o matriz predictora?) que se basa en un y determinado. Algo con valores propios. Usar esto para derivar algún tipo de medias significativas o coeficientes. Si no, se tiene un conjunto de medias. Entonces uno necesita derivar el error estándar. El error estándar se basa definitivamente en la matriz de covarianza (de nuevo sustituya pca o zca)? Pero tendría que repasar el error estándar. Creo que el error estándar es una función de la desviación estándar, pero en lugar de la varianza de una muestra es la varianza de una media.

Edita:

Para la significación estadística

Utilice el método estadístico de la brecha como se explica aquí http://www.datanovia.com/en/lessons/determining-the-optimal-number-of-clusters-3-must-know-methods/#at_pco=wnm-1.0&at_si=609664423560aa01&at_ab=per-2&at_pos=0&at_tot=1

También recomiendo este artículo, en el que se analizan otras medidas afines https://medium.com/@haataa/how-to-measure-clustering-performances-when-there-no-ground-truth-db027e9a871c

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X