6 votos

Interpretación de las gráficas de análisis de correspondencia en 2D (Parte II)

Me gustaría asegurarme de que entiendo el proceso correctamente. Esta es una pregunta de seguimiento para http://stats.stackexchange.com/questions/3270/interpreting-2d-correspondence-analysis-plots

library(reshape) 
library(ca)

df <- read.csv(file="http://www.bertelsen.ca/R/smokers.csv")
colnames(df)[7] <- "value"  ## make reshape smart
df <- cast(df, SMOKER ~ GEO) ## reshape data
row.names(df) <- df$SMOKER ## rename rows
df <- df[2:ncol(df)] ## reset df
df <- df[-4,] ## Let's only look at people who have smoked
df <- df[c("AB","BC","ON","QC")] ## and only the biggest 4 provinces (KISS)
plot(ca(df))

summary(ca(df))

Salida

Principal inertias (eigenvalues):

 dim    value      %   cum%   scree plot               
 1      0.002523  99.9  99.9  *************************
 2      3e-06000   0.1 100.0                           
 3      00000000   0.0 100.0                           
        -------- -----                                 
 Total: 0.002526 100.0                                 

Rows:
    name   mass  qlt  inr    k=1  cor ctr    k=2 cor ctr  
1 | Crrn |  265 1000  191 |  -43 1000 191 |    1   0  43 |
2 | Dlys |  201 1000  351 |  -66 1000 351 |   -1   0  70 |
3 | Frmr |  470 1000  432 |   48 1000 432 |   -1   0  98 |
4 | Occs |   65 1000   26 |   31  964  25 |    6  36 789 |

Columns:
    name   mass  qlt  inr    k=1  cor ctr    k=2 cor ctr  
1 |   AB |  116 1000  146 |  -56 1000 146 |   -1   0  34 |
2 |   BC |  142 1000  775 |  118 1000 776 |   -1   0  41 |
3 |   ON |  434 1000    7 |   -6  909   6 |    2  91 540 |
4 |   QC |  308 1000   72 |  -24  994  72 |   -2   6 385 |

Mirando a summary(ca(df)) Veo que casi el 100% de la inercia se describe por el perfil de la fila para ambas modalidades (Tipo de fumador y Provincia, respectivamente).

CA of Smoker Types in ON, QC, AB, and BC

Lo que (creo) debería ser la comida para llevar inmediata es:

  1. Es más probable que seas un fumador diario si vives en AB, QC, o ON
  2. Es más probable que seas un ex-fumador si vives en BC
  3. Es menos probable que fumes a diario si vives en BC (esto concuerda con la amplia comprensión de la cultura del "estilo de vida activo" de BC)

¿Qué podríamos decir de los fumadores ocasionales? ¿Qué nos diría su análisis a través de esta trama de correspondencia y su resumen asociado?

Fuente de datos: Estadísticas del Canadá, Encuesta sobre la salud de la comunidad canadiense (CCHS 3.1), 2005. El cuadro de la CANSIM 105-0427 fue una actualización del cuadro de la CANSIM 105-0227 . Los datos más actuales están en las tablas de CANSIM 105-0501 y 105-0502 .

5voto

David J. Sokol Puntos 1730

Soy ecologista, así que pido disculpas de antemano si esto suena un poco extraño :-)

Me gusta pensar en estas parcelas en términos de medias ponderadas. Los puntos de la región se sitúan en las medias ponderadas de las clases de fumadores y viceversa.

El problema de la figura anterior es el escalado de los ejes y el hecho de que no se pueden mostrar todas las relaciones (distancia chi-cuadrado entre regiones y distancia chi-cuadrado entre estados de fumador) en la misma figura. Por lo que parece, la figura utiliza lo que se conoce como escala simétrica, que ha demostrado ser un buen compromiso para preservar la mayor cantidad de información posible en los conjuntos de puntuaciones.

No estoy familiarizado con el ca paquete pero estoy con el paquete vegano y es cca función:

require(vegan)
df <- data.frame(df)
ord <- cca(df)
plot(ord, scaling = 3)

El último gráfico es un poco más fácil de leer que el que muestras pero AFAICT son los mismos (o al menos de escala similar).

Así pues, diría que los fumadores ocasionales son menos numerosos de lo esperado en QC, BC y AB, y más asociados a ON, pero que en todas las regiones, los fumadores ocasionales son poco numerosos, difieren notablemente del número esperado.

Sin embargo, hay un único "gradiente" o eje de variación dominante en estos datos y como el segundo eje representa tan poca variación, probablemente no interpretaría este componente en absoluto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X