6 votos

Normalizar los datos de la muestra para su agrupación

Tengo tres tipos de puntuación de resumen, $a, b$ y $c$ para 200 muestras.

$S1, S2, S3,..., S200$

$a_{s1}, a_{s2}, ..., a_{s200}$

$b_{s1}, b_{s2}, ..., b_{s200}$

$c_{s1}, c_{s2}, ..., c_{s200}$

Cada una de estas puntuaciones es esencialmente el número de veces que se produce algún evento en los datos de cada muestra. Deseo encontrar grupos de estas muestras mediante una agrupación basada en la correlación. Sin embargo, las escalas de cada una de estas puntuaciones son muy diferentes:

Resumen de $a$ :

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
2.0   36.0   55.0   52.5   69.0  139.0 

Resumen de $b$ :

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
8.0   99.5   285.0   292.7   737.5  2624.0 

Resumen de $c$ :

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
40.0    111.0   176.0   300.4   554.5   779.0 

¿Debo normalizar las puntuaciones? Si es así, ¿cómo?

NB. No quiero hacer ninguna suposición sobre la dependencia o independencia entre estos tipos de eventos y, por tanto, entre estas puntuaciones de resumen.

ACTUALIZACIÓN: He decidido probar la agrupación con Euclides. Para obtener datos normalizados y transformados, estoy haciendo lo siguiente 1. probar si las puntuaciones se ajustan a una distribución normal con la prueba de Shapiro

  1. si no, entonces haz una transformación boxcox usando $\lambda$ de un boxcoxfit

  2. obtener la puntuación z de cada resultado

  3. cluster con medida de distancia euclidiana

¿Le parece razonable?

0 votos

Sí, parece razonable.

4voto

Mike Puntos 1018

La agrupación en general requiere una métrica de similitud para calcular una partición de sus datos. ¿Sabe usted cómo calcular la similitud de $\vec{a}$ a $\vec{b}$ ? De esta pregunta dependerá principalmente si necesita o no la normalización. Si no tiene una métrica/medida de este tipo, y quiere utilizar la distancia euclidiana normal, se recomienda normalizar los datos, es decir, llevar cada variable a una media cero y una varianza unitaria. Porque si no lo hace, las puntuaciones con el mayor rango dominarán el cálculo de la distancia.

0 votos

Estaba pensando en utilizar la correlación en lugar de la distancia euclidiana. ¿Tendría que normalizar la correlación? No soy un estadístico, ¿cómo puedo normalizar?

0 votos

No creo que sea necesaria ninguna normalización si se quiere utilizar la correlación. Por desgracia, no tengo ninguna experiencia con agrupación basada en la correlación .

0 votos

"las puntuaciones con mayor rango dominarán el cálculo de la distancia". ¿Por qué es esto malo?

0voto

Para realizar la normalización de la puntuación z en x, no es necesario comprobar si x tiene una distribución normal o no. Para cualquier distribución, z estará en una distribución de media cero, una desviación estándar.

El tipo de distribución es importante cuando se utiliza cualquier prueba sobre los datos, basada en esa distribución particular.

La conveniencia de la distribución normal en este sentido es que

si x está en una distribución normal con media m y desviación típica s z (= (x-m)/s) también estará en una distribución normal con media cero y desviación típica 1.

\==== Algunas personas utilizan la normalización para la agrupación utilizando el mínimo y el rango del conjunto de datos:

z= (x - min_x) / (max_x - min_x)

haciendo que los datos caigan en [0,1]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X