10 votos

¿Significa la baja anchura de las siluetas que los datos tienen poca estructura subyacente?

Soy nuevo en el análisis de secuencias, y me preguntaba cómo reaccionar si las anchuras medias de las siluetas (ASW) de los análisis de clústeres de las matrices de disimilitud basadas en el emparejamiento óptimo son bajas (alrededor de 0,25). ¿Le parecería apropiado concluir que hay poca estructura subyacente que permita agrupar las secuencias? ¿Podría ignorar el bajo ASW basándose en otras medidas de calidad de los clusters (he pegado algunas más abajo)? ¿O es probable que las decisiones tomadas durante el análisis de las secuencias o los análisis de clústeres posteriores puedan ser responsables de los bajos números de ASW?

Se agradecerá cualquier sugerencia. Gracias.

Por si se necesita más contexto:

Estoy examinando 624 secuencias de desajustes de horas de trabajo (es decir, desajustes entre el número de horas que una persona prefiere trabajar a la semana y el número de horas que realmente trabaja) entre personas de 20 años. Todas las secuencias que estoy examinando tienen una longitud de 10. Mi objeto de secuencia tiene cinco estados (M=desea más horas, S=desea las mismas horas, F=desea menos horas, O=fuera de la población activa y U=desempleado).

No he hecho un recuento sistemático de cómo varían los resultados de la ASW con diferentes combinaciones de enfoques. Aún así, he probado con costes de indelación bajos y medios (.1 y .6 del coste máximo de sustitución - me importa más el orden de los eventos que su tiempo) y diferentes procedimientos de agrupación (ward, average y pam). Mi impresión general es que los números de ASW siguen siendo bajos.

Tal vez los bajos resultados de ASW tengan sentido. Yo esperaría que estos estados se dieran en una variedad de órdenes diferentes, y los estados pueden repetirse. Si se eliminan las observaciones duplicadas, sólo se reduce la N de 624 a 536. El estudio de los datos revela que, en efecto, hay una buena variedad y secuencias que yo consideraría muy diferentes, por ejemplo, personas que quisieron las mismas horas todo el tiempo, desarrollaron un desajuste, resolvieron un desajuste y oscilaron entre tener y no tener un desajuste. Quizás la falta de grupos claramente diferenciados no sea lo mismo que la falta de variación interesante. Aun así, los débiles resultados de los clusters parecen dejarme sin una buena forma de resumir las secuencias.

Resultados del método de Ward con el indel fijado en 0,1 del coste de sustitución de 2 Estas estadísticas parecen sugerir que una solución de 6 clusters podría ser buena. El ASW, sin embargo, es bajo, al menos para las soluciones que tienen un número razonable de clusters (2 o 3 son demasiado pocos).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

11voto

serhio Puntos 101

El ASW es una medida de la coherencia de una solución de agrupación. Un valor alto de ASW significa que los clusters son homogéneos (todas las observaciones están cerca del centro del cluster), y que están bien separados. Según Kaufmann y Rousseuw (1990), un valor inferior a 0,25 significa que los datos no están estructurados. Entre 0,25 y 0,5, los datos podrían estar estructurados, pero también podrían ser un artificio. Tenga en cuenta que estos valores son indicativos y no deben utilizarse como umbral de decisión. Estos valores no están definidos teóricamente (no se basan en algún valor p) sino que se basan en la experiencia de los autores. Por lo tanto, según estos valores bajos de ASW, sus datos parecen estar bastante desestructurados. Si el propósito del análisis de conglomerados es sólo descriptivo, entonces puede argumentar que revela algunos (pero sólo algunos) de los patrones más destacados. Sin embargo, creo que en su caso, no debería sacar ninguna conclusión teórica de su agrupación.

También puede intentar echar un vistazo a los valores de ASW "por cluster" (esto viene dado por la función wcClusterQuality ). Puede que algunos de sus grupos estén bien definidos y que otros sean "espurios" (ASW<0), lo que da lugar a un valor general de ASW bajo.

Puede intentar utilizar las estrategias bootstrap, que deberían darle una mejor pista. En R, la función clusterboot en el paquete fpc se puede utilizar para este propósito (mira la página de ayuda). Sin embargo, no funciona con datos ponderados. Si sus datos no están ponderados, creo que vale la pena probarlo.

Por último, es posible que desee examinar más detenidamente sus datos y su categorización. Tal vez, sus categorías sean demasiado inestables o no estén bien definidas. Sin embargo, no parece ser el caso aquí.

Como usted ha dicho, "la falta de grupos claramente diferenciados no es lo mismo que la falta de variación interesante". Existen otros métodos para analizar la variabilidad de sus secuencias, como el análisis de discrepancia. Estos métodos le permiten estudiar los vínculos entre las secuencias y los factores explicativos. Puede, por ejemplo, intentar construir árboles de regresión de secuencias (función "seqtree" en el paquete TraMineR).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X