2 votos

Inferir límites de valores no escalados a partir de sus valores estandarizados - Agrupación

Estoy trabajando en un problema de agrupación y tengo algunas variables asimétricas.

Entonces, los transformo en registro y los utilizo en agrupación.

Sin embargo, en lugar de clustering multivariante, hago clustering univariante múltiple (clustering 1D de múltiples variables por separado) utilizando el enfoque jenks.

Mi pregunta es,

a) ¿Las etiquetas de patrón/cluster/grupo encontradas basadas en valores normalizados/transformados logarítmicamente también se aplican a los valores originales? Por ejemplo: utilizando los valores transformados logarítmicamente (y su correspondiente ID de cliente), puedo obtener sus valores brutos. Entonces, ¿puedo decir que los datos brutos de 100 a 102 pertenece al grupo 0 y 800 a 804 pertenece al grupo 1?

¿Es decir, el patrón encontrado para el valor normalizado/estandarizado/transformado también es aplicable a los valores brutos? ¿O es que el patrón encontrado en los valores transformados logarítmicamente es falso (y no se aplica necesariamente a los valores brutos)?

mis datos de muestra tienen el siguiente aspecto. Se trata sólo de datos ficticios para ayudar a entender la pregunta (por lo que los valores de transformación pueden ser incorrectos)

enter image description here

1voto

Jan Masek Puntos 11

Si he entendido bien, básicamente estás preguntando: "Si aplico una transformación logarítmica a mis datos y ejecuto un análisis de agrupación en los datos transformados, ¿son válidas las conclusiones/patrones para los datos transformados? original datos?"

Quizá alguien pueda dar una respuesta teórica/matemática formal, pero desde un punto de vista práctico, lo que describes es bastante común y suele considerarse válido.

Debes tener un poco de cuidado cuando hagas esto (especialmente en configuraciones como regresión - si haces regresión en valores logarítmicos, no olvides que los coeficientes son para valores logarítmicos y hay que hacer alguna transformación para obtener la interpretación del valor bruto).

En tu caso, sin embargo, creo que este tipo de enfoque está perfectamente bien. Pero deberías plantearte el problema desde un punto de vista de "sentido común" y entender por qué tu agrupación podría ser mejor/diferente con los valores transformados logarítmicamente que con los valores originales, y si eso tiene sentido en tu contexto (presumiblemente, el logaritmo "aprieta" tu distribución sesgada, haciendo que los puntos dispersos estén más juntos y, por tanto, sean más fáciles de agrupar).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X