5 votos

¿Cómo manejar texto y números para la PCA en R?

Soy relativamente nuevo en R y estoy trabajando con un conjunto de datos muy grande que tiene una mezcla de resultados numéricos (por ejemplo, ingresos) así como valores de texto (es decir, raza). Planeaba sobre el uso de PCA para analizar este conjunto de datos pero sólo funciona en datos numéricos. ¿Hay alguna alternativa buena?

5voto

Shea Parkes Puntos 2014

Compruebe hacia fuera el funcionan en el paquete: coordinación de mesas de mezcla de variables cuantitativas y factores. Ejemplo:

Hay un par otros paquetes que mezcla el análisis de correspondencia.

Usted puede seguir adelante y totalmente ficticio código tus categóricas también. No es sonido como teóricamente, pero hacer el trabajo.

2voto

James Sutherland Puntos 2033

Hacer que las variables de

Hacer que el texto de los valores de las variables nominales utilizando factor o variables ordinales mediante ordered por ejemplo, si tiene una estructura de datos llamada mydata , a continuación,

mydata <- transform(race=factor(race))

convertir un textual de la carrera variable nominal. Ver ?transform para más detalles.

De esta manera R se muestran las etiquetas, pero construir el adecuado variables ficticias en el fondo de usted cuando usted se adapta a cualquier modelo. Usted puede cambiar la línea de base de la categoría por defecto en la codificación de contraste usando relevel.

Si usted utiliza read.csv para obtener sus datos, esto ya podría haber ocurrido sin que usted lo solicite. Usted puede comprobar las clases de cada variable mediante

lapply(mydata, class)

Las cosas que son factores de la lista de sus niveles. De hecho, la mitad de la batalla con R es persuadir de no hacer este tipo de 'a mano' de la variable de conversiones.

Variables de escala?

Si usted está pensando en PCA, a continuación, que son, supongo, tratando de escalar los datos de alguna manera. Si este es el caso, usted podría usar un factor de enfoque de análisis que se puede tratar con una mezcla de tipos de variables. Un ejemplo de este método es MCMCmixfactanal en el MCMCpack paquete de R.

Por otra parte usted podría preguntarse lo que el espacio que iba a salir de un gran modelo de escalamiento que contiene tanto dispares cosas. Tal vez un sabio plan sería mantener las variables nominales como las cosas a la condición de encendido / estratificar, en el contexto de la guarnición regular de un modelo multivariado.

Si te gustaría explicar el propósito de su PCA plan que podría ser capaz de proporcionar algunas de las más alternativas. ¿Qué información está tratando de salir de los datos mediante la escala?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X