Agrupación de datos de tipo mixto con R

Question

Agrupación de datos de tipo mixto con R

Preguntado el 12 de Marzo, 2012: Cuando se hizo la pregunta
17426 visitas: Cuantas visitas ha tenido la pregunta
5 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me pregunto si es posible realizar dentro de R una agrupación de datos que tengan variables de datos mixtas. En otras palabras, tengo un conjunto de datos que contiene variables numéricas y categóricas y estoy buscando la mejor manera de agruparlas. En SPSS utilizaría un cluster de dos pasos. Me pregunto si en R puedo encontrar una técnica similar. Me han hablado del paquete poLCA, pero no estoy seguro...

Preguntado el 12 de Marzo, 2012 por Santiago Cepas

1 votos

¿No es SPSS Dos Pasos diseñado para manejar grandes conjuntos de datos? (Aporto una respuesta a una pregunta relacionada aquí .) De lo contrario, ¿mi respuesta a ¿Puede aplicarse el análisis de componentes principales a conjuntos de datos que contienen una mezcla de variables continuas y categóricas? ¿ser de alguna ayuda?

Comentado el 13 de Marzo, 2012 por DavLink

0 votos

Dentro del paquete R grupo hay margarita que creará una matriz de disimilitud para los datos mixtos (coeficiente de similitud de Gower). A continuación, puede utilizar ?agnes u otras funciones de agrupación.

Comentado el 23 de Enero, 2013 por Rich

1 votos

No hay que confundir el método con la aplicación. Primero busca un algoritmo de agrupación que tenga sentido. Entonces busque un paquete R que lo implemente.

Comentado el 2 de Octubre, 2014 por trish

Mostrar 3 comentarios más

Answer 1

5 Respuestas

Answer 2

19voto

Rich Puntos 133

Dentro del paquete R grupo hay margarita que creará una matriz de disimilitud para datos mixtos. A continuación, puede utilizar ?agnes u otras funciones de agrupación.

Respondido el 23 de Enero, 2013 por Rich (133 Puntos )

Answer 3

8voto

user54905 Puntos 123

Esto puede llegar tarde, pero intente klaR ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

Utiliza el algoritmo no jerárquico k-modes, que se basa en la coincidencia simple como función de distancia, por lo que la distancia δ entre una variable m de dos puntos de datos $x$ y $y$ viene dada por

$\delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases}$

Hay un fallo en el paquete, que es que si dos puntos de datos tienen la misma distancia a un centro de cluster, se elige el primero de sus datos en lugar de un punto aleatorio, pero se puede modificar fácilmente el bit en el código.

Para tener en cuenta la agrupación de variables mixtas, tendrá que entrar en el código y modificar la función de distancia para identificar los modos y variables numéricos y no numéricos.

Respondido el 29 de Agosto, 2014 por user54905 (123 Puntos )

Answer 4

7voto

XGS Puntos 51

Otra forma atractiva de manejar variables de tipos mixtos es utilizar la matriz de proximidad/similitud de los bosques aleatorios: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Esto facilita una forma unificada de tratar por igual todas las variables (no obstante, hay que tener en cuenta el problema del sesgo de selección de variables). Por otra parte, no existe una forma universal de definir la distancia para las variables de tipo mixto. Todo depende de los contextos de aplicación.

Respondido el 1 de Octubre, 2014 por XGS (51 Puntos )

Answer 5

3voto

Amadiere Puntos 5606

Pues sí que se puede. Haciendo que las variables categóricas sean artificialmente numéricas. O utilizando una agrupación basada en la matriz de distancia (fpc probablemente pueda hacerlo). La pregunta que debería intentar responder primero es: ¿tiene realmente sentido?

Respondido el 13 de Marzo, 2012 por Amadiere (5606 Puntos )

Answer 6

1voto

Badri Puntos 31

Si los valores posibles de las variables categóricas no son demasiados, puede pensar en crear variables binarias a partir de esos valores. Puede tratar estas variables binarias como variables numéricas y ejecutar su clustering. Eso es lo que hice para mi proyecto.

Respondido el 13 de Marzo, 2012 por Badri (31 Puntos )

Agrupación de datos de tipo mixto con R

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Agrupación de datos de tipo mixto con R

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: