Tengo tres tipos de puntuación de resumen, $a, b$ y $c$ para 200 muestras.
$S1, S2, S3,..., S200$
$a_{s1}, a_{s2}, ..., a_{s200}$
$b_{s1}, b_{s2}, ..., b_{s200}$
$c_{s1}, c_{s2}, ..., c_{s200}$
Cada una de estas puntuaciones es esencialmente el número de veces que se produce algún evento en los datos de cada muestra. Deseo encontrar grupos de estas muestras mediante una agrupación basada en la correlación. Sin embargo, las escalas de cada una de estas puntuaciones son muy diferentes:
Resumen de $a$ :
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.0 36.0 55.0 52.5 69.0 139.0
Resumen de $b$ :
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.0 99.5 285.0 292.7 737.5 2624.0
Resumen de $c$ :
Min. 1st Qu. Median Mean 3rd Qu. Max.
40.0 111.0 176.0 300.4 554.5 779.0
¿Debo normalizar las puntuaciones? Si es así, ¿cómo?
NB. No quiero hacer ninguna suposición sobre la dependencia o independencia entre estos tipos de eventos y, por tanto, entre estas puntuaciones de resumen.
ACTUALIZACIÓN: He decidido probar la agrupación con Euclides. Para obtener datos normalizados y transformados, estoy haciendo lo siguiente 1. probar si las puntuaciones se ajustan a una distribución normal con la prueba de Shapiro
-
si no, entonces haz una transformación boxcox usando $\lambda$ de un boxcoxfit
-
obtener la puntuación z de cada resultado
-
cluster con medida de distancia euclidiana
¿Le parece razonable?
0 votos
Sí, parece razonable.