Soy nuevo en el análisis de secuencias, y me preguntaba cómo reaccionar si las anchuras medias de las siluetas (ASW) de los análisis de clústeres de las matrices de disimilitud basadas en el emparejamiento óptimo son bajas (alrededor de 0,25). ¿Le parecería apropiado concluir que hay poca estructura subyacente que permita agrupar las secuencias? ¿Podría ignorar el bajo ASW basándose en otras medidas de calidad de los clusters (he pegado algunas más abajo)? ¿O es probable que las decisiones tomadas durante el análisis de las secuencias o los análisis de clústeres posteriores puedan ser responsables de los bajos números de ASW?
Se agradecerá cualquier sugerencia. Gracias.
Por si se necesita más contexto:
Estoy examinando 624 secuencias de desajustes de horas de trabajo (es decir, desajustes entre el número de horas que una persona prefiere trabajar a la semana y el número de horas que realmente trabaja) entre personas de 20 años. Todas las secuencias que estoy examinando tienen una longitud de 10. Mi objeto de secuencia tiene cinco estados (M=desea más horas, S=desea las mismas horas, F=desea menos horas, O=fuera de la población activa y U=desempleado).
No he hecho un recuento sistemático de cómo varían los resultados de la ASW con diferentes combinaciones de enfoques. Aún así, he probado con costes de indelación bajos y medios (.1 y .6 del coste máximo de sustitución - me importa más el orden de los eventos que su tiempo) y diferentes procedimientos de agrupación (ward, average y pam). Mi impresión general es que los números de ASW siguen siendo bajos.
Tal vez los bajos resultados de ASW tengan sentido. Yo esperaría que estos estados se dieran en una variedad de órdenes diferentes, y los estados pueden repetirse. Si se eliminan las observaciones duplicadas, sólo se reduce la N de 624 a 536. El estudio de los datos revela que, en efecto, hay una buena variedad y secuencias que yo consideraría muy diferentes, por ejemplo, personas que quisieron las mismas horas todo el tiempo, desarrollaron un desajuste, resolvieron un desajuste y oscilaron entre tener y no tener un desajuste. Quizás la falta de grupos claramente diferenciados no sea lo mismo que la falta de variación interesante. Aun así, los débiles resultados de los clusters parecen dejarme sin una buena forma de resumir las secuencias.
Resultados del método de Ward con el indel fijado en 0,1 del coste de sustitución de 2 Estas estadísticas parecen sugerir que una solución de 6 clusters podría ser buena. El ASW, sin embargo, es bajo, al menos para las soluciones que tienen un número razonable de clusters (2 o 3 son demasiado pocos).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08