Cuando se trata de datos con factores, R se puede usar para calcular las medias de cada grupo con la función lm(). Esto también proporciona los errores estándar para las medias estimadas. Pero este error estándar difiere de lo que obtengo de un cálculo manual.
Aquí hay un ejemplo (tomado de aquí Predicting the difference between two groups in R)
Primero calcula la media con lm():
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.663636 0.9718008 27.437347 2.688358e-22
cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04
cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10
La intersección es la media para el primer grupo, los autos de 4 cilindros. Para obtener las medias por cálculo directo uso esto:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
Para obtener los errores estándar para las medias calculo la desviación estándar de la muestra y divido por el número de observaciones en cada grupo:
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)))
4 6 8
1.3597642 0.5493967 0.6842016
El cálculo directo da la misma media pero el error estándar es diferente para los 2 enfoques, esperaba obtener el mismo error estándar. ¿Qué está pasando aquí? ¿Está relacionado con lm() ajustando la media para cada grupo y un término de error?
Editado: Después de la respuesta de Sven (abajo) puedo formular mi pregunta de forma más concisa y clara.
Para datos categóricos podemos calcular las medias de una variable para diferentes grupos utilizando lm() sin una intersección.
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error
cyl4 26.66364 0.9718008
cyl6 19.74286 1.2182168
cyl8 15.10000 0.8614094
Podemos comparar esto con un cálculo directo de las medias y sus errores estándar:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)))
4 6 8
1.3597642 0.5493967 0.6842016
Las medias son exactamente las mismas pero los errores estándar son diferentes para estos 2 métodos (como también señala Sven). Mi pregunta es ¿por qué son diferentes y no iguales?
(al editar mi pregunta, ¿debo borrar el texto original o agregar mi edición como lo hice?)