24 votos

¿Por qué se mezclan datos de un problema de algoritmos de clustering basados en euclidiana?

La mayoría de los clásicos de la agrupación y reducción de dimensionalidad de algoritmos de agrupamiento jerárquico, análisis de componentes principales, k-means, self-organizing maps,...) están diseñados específicamente para los datos numéricos, y sus datos de entrada son vistos como puntos en un espacio euclidiano.

Este es un problema de curso, como muchos en el mundo real las preguntas se refieren a datos que son mixtos: por ejemplo, si hacemos un estudio de los autobuses, la altura y la longitud y el tamaño del motor será números, pero también podríamos estar interesados en color (variable categórica: azul/rojo/verde...) y la capacidad de clases (ordenado variable: pequeño/mediano/grande de la capacidad). Específicamente, puede que se desee para el estudio de estos diferentes tipos de variables simultáneamente.

Hay un número de métodos para extender la clásica agrupación algos a la mezcla de datos, por ejemplo utilizando una similaridad de Gower para conectar a la agrupación jerárquica o de escalamiento multidimensional, u otros métodos que tomar distancia de la matriz como de entrada. O por ejemplo este método, una extensión de la SOM de datos mixtos.

Mi pregunta es: ¿por qué no podemos simplemente utilizar la distancia euclídea mixto variables? o ¿por qué es malo hacerlo? ¿Por qué no podemos simplemente ficticio-codificar las variables categóricas, la normalización de todas las variables, de modo que tienen un peso similar en la distancia entre las observaciones, y ejecutar el habitual algos en estas matrices?

Es muy fácil, y de hecho nunca, así que supongo que es muy malo, pero ¿alguien puede decirme por qué? Y/o darme algunas referencias? Gracias

9voto

Amadiere Puntos 5606

No se trata de no ser capaz de calcular algo.

Distancias mucho utilizarse para medir algo significativo. Esto se producirá mucho antes con categorial de datos. Si se trabaja con más de una variable, que es...

Si usted tiene los atributos de tamaño de zapato y la masa corporal, la distancia Euclídea no tiene mucho sentido tampoco. Es bueno cuando x,y,z son las distancias. A continuación, la distancia Euclídea es la línea de visión de la distancia entre los puntos.

Ahora bien, si usted maniquí-codificar las variables, lo que significa que hace este rendimiento?

Además, la distancia Euclídea no tiene sentido cuando sus datos discretos.

Si hay sólo existen enteros x e y los valores, la distancia Euclídea todavía rendimiento no entero distancias. Que no asignan a los datos. Del mismo modo, para la dummy variables codificadas, la distancia no mapa de nuevo a una cantidad de variables ficticias...

Cuando, a continuación, el plan para el uso por ejemplo de agrupamiento k-means, no es sólo acerca de las distancias, pero sobre el cómputo de la media. Pero no es razonable decir sobre dummy variables codificadas, ¿no?

Por último, existe la maldición de la dimensionalidad. La distancia euclídea es conocido disminuir cuando aumenta el número de variables. La adición de dummy variables codificadas significa que usted pierde distancia contraste bastante rápido. Todo es tan similar como todo lo demás, porque una sola variable ficticia puede hacer toda la diferencia.

5voto

user39949 Puntos 231

En el corazón de estas métricas de clustering basado en problemas es la idea de interpolación.

Tomar cualquiera sea el método que acabamos de citar, y consideremos una variable continua, tales como el peso. Usted tiene 100 kg y tiene 10kg en sus datos. Cuando vea una nueva 99kg, la métrica se le permitirá acercarse 100kg --- aunque usted nunca lo ha visto. Lamentablemente, no hay interpolación existentes para datos discretos.

Otro argumento a favor de esta pregunta es que no hay forma natural de hacerlo. Desea asignar 3 valores en R y hacer de la igualdad de distancia entre cada par, esto sería imposible. Si se les asignan en diferentes categorías y ejecutar digamos PCA, entonces se pierde la información que se refleja en el hecho de la misma categoría.

0voto

Gary Willoughby Puntos 13366

Un problema con unorder categóricas es que si maniquí codifican fuerza un orden y por lo tanto un nuevo significado a las variables. E. g si codifica azul de 1 naranja y 2 verdes y 3, a continuación, que implica que un modelo de datos con orange valor es más cercano a un patrón con verde el valor que el uno con el valor de azul.

Una manera de manejar esto es para que se den nuevas características (columnas). Para cada valor distinto de crear un nuevo binario característica y se establece en true/false (en otras palabras binarias de codificar los valores y hacer de cada uno un poco de la columna). Para cada patrón de datos de este nuevo conjunto de características, sólo una de las características que tendrá el valor 1 y el resto 0. Pero esto generalmente no se detiene el algoritmo de entrenamiento para asignar centroide cerca de los valores de 1 a más de una característica. Este curso puede causar problemas de interpretación causar esto no tiene sentido en el dominio de los datos.

No tiene el mismo problema con la "capacidad de clases", es decir, categorías ordenadas, ya que en ese caso los valores numéricos de asignación de hace sence.

Y por supuesto es utilizar recursos de diferente naturaleza o unidad de medida o rango diferente de valores, a continuación, usted siempre debe normalizar los valores.

http://stackoverflow.com/questions/19507928/growing-self-organizing-map-for-mixed-type-data/19511894#19511894

http://stackoverflow.com/questions/13687256/is-it-right-to-normalize-data-and-or-weight-vectors-in-a-som/13693409#13693409

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X