Me pregunto si es posible realizar dentro de R una agrupación de datos que tengan variables de datos mixtas. En otras palabras, tengo un conjunto de datos que contiene variables numéricas y categóricas y estoy buscando la mejor manera de agruparlas. En SPSS utilizaría un cluster de dos pasos. Me pregunto si en R puedo encontrar una técnica similar. Me han hablado del paquete poLCA, pero no estoy seguro...
Respuestas
¿Demasiados anuncios?Esto puede llegar tarde, pero intente klaR ( http://cran.r-project.org/web/packages/klaR/index.html )
install.packages("klar")
Utiliza el algoritmo no jerárquico k-modes, que se basa en la coincidencia simple como función de distancia, por lo que la distancia δ entre una variable m de dos puntos de datos $x$ y $y$ viene dada por
$$ \delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases} $$
Hay un fallo en el paquete, que es que si dos puntos de datos tienen la misma distancia a un centro de cluster, se elige el primero de sus datos en lugar de un punto aleatorio, pero se puede modificar fácilmente el bit en el código.
Para tener en cuenta la agrupación de variables mixtas, tendrá que entrar en el código y modificar la función de distancia para identificar los modos y variables numéricos y no numéricos.
Otra forma atractiva de manejar variables de tipos mixtos es utilizar la matriz de proximidad/similitud de los bosques aleatorios: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Esto facilita una forma unificada de tratar por igual todas las variables (no obstante, hay que tener en cuenta el problema del sesgo de selección de variables). Por otra parte, no existe una forma universal de definir la distancia para las variables de tipo mixto. Todo depende de los contextos de aplicación.
1 votos
¿No es SPSS Dos Pasos diseñado para manejar grandes conjuntos de datos? (Aporto una respuesta a una pregunta relacionada aquí .) De lo contrario, ¿mi respuesta a ¿Puede aplicarse el análisis de componentes principales a conjuntos de datos que contienen una mezcla de variables continuas y categóricas? ¿ser de alguna ayuda?
0 votos
Dentro del paquete R grupo hay margarita que creará una matriz de disimilitud para los datos mixtos (coeficiente de similitud de Gower). A continuación, puede utilizar ?agnes u otras funciones de agrupación.
1 votos
No hay que confundir el método con la aplicación. Primero busca un algoritmo de agrupación que tenga sentido. Entonces busque un paquete R que lo implemente.
0 votos
Similitud de Gower se puede utilizar.
0 votos
@gung cerró hace poco una pregunta muy similar que hice. Me dijeron que mi pregunta estaba fuera de tema porque se refería principalmente al software. Esto parece ser igualmente sobre el software. Me interesaría mucho saber por qué se aplican las normas aquí de forma incoherente. Creo que la pregunta es informativa, pero las reglas deben ser las reglas.
0 votos
@Weiwen Ayuda a prestar atención a las fechas. En los primeros días de este sitio, las preguntas orientadas al software eran más aceptadas. El hecho de que algunos de estos hilos sigan vigentes -especialmente los más votados- no es una razón válida para acusarnos de incoherencia: estos hilos son indicadores de mejora. Puede obtener más información sobre nuestras políticas en nuestro centro de ayuda y en el meta sitio.