La fórmula para los residuos estandarizados es:
$$\begin{align}\text{Pearson's residuals}\,&=\,\frac{\text{Observed - Expected}}{ \sqrt{\text{Expected}}}\\ d_{ij}&=\frac{n_{ij}-m_{ij}}{\sqrt{m_{ij}}} \end{align}$$
donde $m_{ij} = E( f_{ij})$ es la frecuencia esperada del $i$ -y la $j$ -Columna de la derecha.
La suma de los residuos estandarizados al cuadrado es el valor de chi cuadrado.
Desde Ampliación de las pantallas de mosaico: Vistas marginales, parciales y condicionales de datos categóricos por Michael Friendly
Bajo el supuesto de independencia, estos valores corresponden aproximadamente a probabilidades de dos colas $p < .05$ y $p < .0001$ que un valor determinado de $| d_{ij} |$ supera $2$ o $4$ .
Observe la siguiente nota a pie de página:
Con fines exploratorios, no solemos realizar ajustes (por ejemplo, Bonferroni) para las pruebas múltiples porque el objetivo es mostrar el patrón de los residuos en la tabla en su conjunto. Sin embargo, el número y los valores de estos puntos de corte pueden ser fijados fácilmente por el usuario.
Se trata de una tabla multidireccional, en la que el Documentación de R para el paquete mosaicplot estados:
Las visualizaciones del mosaico ampliado muestran los residuos estandarizados de un modelo loglineal de los recuentos de por el color y el contorno de las teselas del mosaico. (Los residuos estandarizados suelen referirse a una distribución normal estándar). Los residuos negativos se dibujan en color rojo y con contornos rotos; los positivos se dibujan en azul con contornos sólidos.
El hecho de que sea una tabla de contingencia de tres vías complica la interpretación, que está muy bien explicada en la respuesta de @roando2.
Aquí hay una simulación con una tabla inventada que se parece a la del PO para aclarar los cálculos:
tab_df = data.frame(expand.grid(
age = c("15-24", "25-39", ">40"),
attitude = c("no","moderate"),
memory = c("yes", "no")),
count = c(1,4,3,1,8,39,32,36,25,35,32,38) )
(tab = xtabs(count ~ ., data = tab_df))
, , memory = yes
attitude
age no moderate
15-24 1 1
25-39 4 8
>40 3 39
, , memory = no
attitude
age no moderate
15-24 32 35
25-39 36 32
>40 25 38
summary(tab)
Call: xtabs(formula = count ~ ., data = tab)
Number of cases in table: 254
Number of factors: 3
Test for independence of all factors:
Chisq = 78.33, df = 7, p-value = 3.011e-14
require(vcd)
mosaic(~ memory + age + attitude, data = tab, shade = T)
expected = mosaic(~ memory + age + attitude, data = tab, type = "expected")
expected
# Finding, as an example, the expected counts in >40 with memory and moderate att.:
over_forty = sum(3,39,25,38)
mem_yes = sum(1,4,3,1,8,39)
att_mod = sum(1,8,39,35,32,38)
exp_older_mem_mod = over_forty * mem_yes * att_mod / sum(tab)^2
# Corresponding standardized Pearson's residual:
(39 - exp_older_mem_mod) / sqrt(exp_older_mem_mod) # [1] 6.709703
Es interesante comparar la representación gráfica con los resultados de la regresión de Poisson, que ilustra perfectamente la interpretación inglesa en la respuesta de @rolando2:
fit <- glm(count ~ age + attitude + memory, data=tab_df, family=poisson())
summary(fit)
Call:
glm(formula = count ~ age + attitude + memory, family = poisson(),
data = tab_df)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.7999 0.1854 9.708 < 2e-16 ***
age25-39 0.1479 0.1643 0.900 0.36794
age>40 0.4199 0.1550 2.709 0.00674 **
attitudemoderate 0.4153 0.1282 3.239 0.00120 **
memoryno 1.2629 0.1514 8.344 < 2e-16 ***
0 votos
Le puede interesar este puesto .