Soy relativamente nuevo en R y estoy trabajando con un conjunto de datos muy grande que tiene una mezcla de resultados numéricos (por ejemplo, ingresos) así como valores de texto (es decir, raza). Planeaba sobre el uso de PCA para analizar este conjunto de datos pero sólo funciona en datos numéricos. ¿Hay alguna alternativa buena?
Respuestas
¿Demasiados anuncios?Compruebe hacia fuera el funcionan en el
paquete: coordinación de mesas de mezcla de variables cuantitativas y factores. Ejemplo:
Hay un par otros paquetes que mezcla el análisis de correspondencia.
Usted puede seguir adelante y totalmente ficticio código tus categóricas también. No es sonido como teóricamente, pero hacer el trabajo.
Hacer que las variables de
Hacer que el texto de los valores de las variables nominales utilizando factor
o variables ordinales mediante ordered
por ejemplo, si tiene una estructura de datos llamada mydata
, a continuación,
mydata <- transform(race=factor(race))
convertir un textual de la carrera variable nominal. Ver ?transform
para más detalles.
De esta manera R se muestran las etiquetas, pero construir el adecuado variables ficticias en el fondo de usted cuando usted se adapta a cualquier modelo. Usted puede cambiar la línea de base de la categoría por defecto en la codificación de contraste usando relevel
.
Si usted utiliza read.csv
para obtener sus datos, esto ya podría haber ocurrido sin que usted lo solicite. Usted puede comprobar las clases de cada variable mediante
lapply(mydata, class)
Las cosas que son factores de la lista de sus niveles. De hecho, la mitad de la batalla con R es persuadir de no hacer este tipo de 'a mano' de la variable de conversiones.
Variables de escala?
Si usted está pensando en PCA, a continuación, que son, supongo, tratando de escalar los datos de alguna manera. Si este es el caso, usted podría usar un factor de enfoque de análisis que se puede tratar con una mezcla de tipos de variables. Un ejemplo de este método es MCMCmixfactanal
en el MCMCpack paquete de R.
Por otra parte usted podría preguntarse lo que el espacio que iba a salir de un gran modelo de escalamiento que contiene tanto dispares cosas. Tal vez un sabio plan sería mantener las variables nominales como las cosas a la condición de encendido / estratificar, en el contexto de la guarnición regular de un modelo multivariado.
Si te gustaría explicar el propósito de su PCA plan que podría ser capaz de proporcionar algunas de las más alternativas. ¿Qué información está tratando de salir de los datos mediante la escala?