Me gustaría asegurarme de que entiendo el proceso correctamente. Esta es una pregunta de seguimiento para http://stats.stackexchange.com/questions/3270/interpreting-2d-correspondence-analysis-plots
library(reshape)
library(ca)
df <- read.csv(file="http://www.bertelsen.ca/R/smokers.csv")
colnames(df)[7] <- "value" ## make reshape smart
df <- cast(df, SMOKER ~ GEO) ## reshape data
row.names(df) <- df$SMOKER ## rename rows
df <- df[2:ncol(df)] ## reset df
df <- df[-4,] ## Let's only look at people who have smoked
df <- df[c("AB","BC","ON","QC")] ## and only the biggest 4 provinces (KISS)
plot(ca(df))
summary(ca(df))
Salida
Principal inertias (eigenvalues):
dim value % cum% scree plot
1 0.002523 99.9 99.9 *************************
2 3e-06000 0.1 100.0
3 00000000 0.0 100.0
-------- -----
Total: 0.002526 100.0
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Crrn | 265 1000 191 | -43 1000 191 | 1 0 43 |
2 | Dlys | 201 1000 351 | -66 1000 351 | -1 0 70 |
3 | Frmr | 470 1000 432 | 48 1000 432 | -1 0 98 |
4 | Occs | 65 1000 26 | 31 964 25 | 6 36 789 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | AB | 116 1000 146 | -56 1000 146 | -1 0 34 |
2 | BC | 142 1000 775 | 118 1000 776 | -1 0 41 |
3 | ON | 434 1000 7 | -6 909 6 | 2 91 540 |
4 | QC | 308 1000 72 | -24 994 72 | -2 6 385 |
Mirando a summary(ca(df))
Veo que casi el 100% de la inercia se describe por el perfil de la fila para ambas modalidades (Tipo de fumador y Provincia, respectivamente).
Lo que (creo) debería ser la comida para llevar inmediata es:
- Es más probable que seas un fumador diario si vives en AB, QC, o ON
- Es más probable que seas un ex-fumador si vives en BC
- Es menos probable que fumes a diario si vives en BC (esto concuerda con la amplia comprensión de la cultura del "estilo de vida activo" de BC)
¿Qué podríamos decir de los fumadores ocasionales? ¿Qué nos diría su análisis a través de esta trama de correspondencia y su resumen asociado?
Fuente de datos: Estadísticas del Canadá, Encuesta sobre la salud de la comunidad canadiense (CCHS 3.1), 2005. El cuadro de la CANSIM 105-0427 fue una actualización del cuadro de la CANSIM 105-0227 . Los datos más actuales están en las tablas de CANSIM 105-0501 y 105-0502 .