7 votos

¿Cómo determinar las asociaciones significativas en una parcela de mosaico?

Tengo una pregunta común sobre cómo explicar la asociación significativa entre las variables categóricas en el gráfico de mosaico.

Por ejemplo, en este gráfico, basado en los residuos de Pearson, podemos decir que $[2.0, 5.1]$ y $[-3, -2.0]$ Los valores residuales significan que hay una asociación estadísticamente significativa en $40+$ edad, con memoria y actitud moderada? Y cómo considerar el valor residual de Pearson, utilizamos $[2.0, 5.1]$ valor o $[4.0,5.1]$ o $[-2.0 ,-3.0]$ ¿También?

enter image description here

0 votos

Le puede interesar este puesto .

7voto

Antoni Parellada Puntos 2762

La fórmula para los residuos estandarizados es:

$$\begin{align}\text{Pearson's residuals}\,&=\,\frac{\text{Observed - Expected}}{ \sqrt{\text{Expected}}}\\ d_{ij}&=\frac{n_{ij}-m_{ij}}{\sqrt{m_{ij}}} \end{align}$$

donde $m_{ij} = E( f_{ij})$ es la frecuencia esperada del $i$ -y la $j$ -Columna de la derecha.

La suma de los residuos estandarizados al cuadrado es el valor de chi cuadrado.

Desde Ampliación de las pantallas de mosaico: Vistas marginales, parciales y condicionales de datos categóricos por Michael Friendly

Bajo el supuesto de independencia, estos valores corresponden aproximadamente a probabilidades de dos colas $p < .05$ y $p < .0001$ que un valor determinado de $| d_{ij} |$ supera $2$ o $4$ .

Observe la siguiente nota a pie de página:

Con fines exploratorios, no solemos realizar ajustes (por ejemplo, Bonferroni) para las pruebas múltiples porque el objetivo es mostrar el patrón de los residuos en la tabla en su conjunto. Sin embargo, el número y los valores de estos puntos de corte pueden ser fijados fácilmente por el usuario.

Se trata de una tabla multidireccional, en la que el Documentación de R para el paquete mosaicplot estados:

Las visualizaciones del mosaico ampliado muestran los residuos estandarizados de un modelo loglineal de los recuentos de por el color y el contorno de las teselas del mosaico. (Los residuos estandarizados suelen referirse a una distribución normal estándar). Los residuos negativos se dibujan en color rojo y con contornos rotos; los positivos se dibujan en azul con contornos sólidos.


El hecho de que sea una tabla de contingencia de tres vías complica la interpretación, que está muy bien explicada en la respuesta de @roando2.

Aquí hay una simulación con una tabla inventada que se parece a la del PO para aclarar los cálculos:

tab_df = data.frame(expand.grid(
  age = c("15-24", "25-39", ">40"),
  attitude = c("no","moderate"),
  memory = c("yes", "no")),
  count = c(1,4,3,1,8,39,32,36,25,35,32,38) ) 
(tab = xtabs(count ~ ., data = tab_df))

, , memory = yes
       attitude
age     no moderate
  15-24  1        1
  25-39  4        8
  >40    3       39
, , memory = no
       attitude
age     no moderate
  15-24 32       35
  25-39 36       32
  >40   25       38

    summary(tab)
Call: xtabs(formula = count ~ ., data = tab)
Number of cases in table: 254 
Number of factors: 3 
Test for independence of all factors:
    Chisq = 78.33, df = 7, p-value = 3.011e-14

require(vcd)
mosaic(~ memory + age + attitude, data = tab, shade = T)
expected = mosaic(~ memory + age + attitude, data = tab, type = "expected") 
expected

# Finding, as an example, the expected counts in >40 with memory and moderate att.:

over_forty = sum(3,39,25,38)
mem_yes = sum(1,4,3,1,8,39)
att_mod = sum(1,8,39,35,32,38)
exp_older_mem_mod = over_forty * mem_yes * att_mod / sum(tab)^2

# Corresponding standardized Pearson's residual:

(39 - exp_older_mem_mod) / sqrt(exp_older_mem_mod) # [1] 6.709703

enter image description here

Es interesante comparar la representación gráfica con los resultados de la regresión de Poisson, que ilustra perfectamente la interpretación inglesa en la respuesta de @rolando2:

fit <- glm(count ~ age + attitude + memory, data=tab_df, family=poisson())
summary(fit)

Call:
glm(formula = count ~ age + attitude + memory, family = poisson(), 
    data = tab_df)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)        1.7999     0.1854   9.708  < 2e-16 ***
age25-39           0.1479     0.1643   0.900  0.36794    
age>40             0.4199     0.1550   2.709  0.00674 ** 
attitudemoderate   0.4153     0.1282   3.239  0.00120 ** 
memoryno           1.2629     0.1514   8.344  < 2e-16 ***

1 votos

@gung para este caso, yo uso vcd paquete, y utilizar mosaic(Freq ~ age +memory,data =test,colorize = T) ¿Qué quiere decir el cambio de rojo y azul?

1 votos

@AntoniParellada entonces este caso, podemos decir que una parte azul oscura y tres rojas pequeñas son estadísticamente significativas ¿verdad? porque el valor absoluto de los residuos de Pearson es mayor que 1,96.

4voto

pauly Puntos 932

Esto se interpreta mejor utilizando un lenguaje específico. Dentro del grupo de edad de más de 40 años (en el gráfico, etiquetado como "40-") existe una asociación significativa entre las variables memoria y actitud. Citamos asociaciones entre variables, no entre valores o categorías dentro de ellas (como "moderado" o "no").

Una afirmación más específica que se podría hacer es que, para los mayores de 40 años, pero no para otros grupos de edad, el "sí" en la memoria está desproporcionadamente emparejado con el "moderado" en la actitud.

También podríamos decir que hay una interacción entre la edad y la memoria en relación con la actitud, o entre la edad y la actitud en relación con la memoria. Sólo en raras ocasiones se pondría una variable como la edad al final de una frase de este tipo, ya que la edad es normalmente un candidato a ser un predictor o una causa, no un efecto.

Todo lo anterior se basa en la caracterización que hace el gráfico de cada celda utilizando, mediante un color, un rango de residuos de Pearson. El gráfico no nos da información suficiente para especificar los valores de cada residuo. Tampoco ningún valor residual individual determina la importancia en este contexto. El gráfico de mosaico, al estar basado en una prueba de Chi-cuadrado, no aborda la significación, excepto al producir un único valor global, "ómnibus" p -valor.

0 votos

No conozco una forma estándar de ajuste, y supongo que la forma más sencilla sería aplicar una corrección de Bonferroni. Hay tres variables ~ memory + age + attitude y el modelo no incluye explícitamente las interacciones...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X